GCE 上 100% GPU 利用率,无需任何进程

Vit*_*t D 4 gpu nvidia tesla google-compute-engine

我刚刚在带有 2 个 GPU(Nvidia Tesla K80)的 Google Compute Engine 上启动了一个实例。并且在启动后立即,我可以看到nvidia-smi其中一个已经被充分利用。

我检查了正在运行的进程列表,但根本没有任何运行。这是否意味着 Google 已将相同的 GPU 出租给其他人?

在此处输入图片说明

这一切都在这台机器上运行:

No LSB modules are available.
Distributor ID: Ubuntu
Description:    Ubuntu 16.04.5 LTS
Release:    16.04
Codename:   xenial
Run Code Online (Sandbox Code Playgroud)

在此处输入图片说明

Ste*_*fan 6

启用“持久模式”nvidia-smi -pm 1可能会解决问题。ECC 与非持久性模式相结合可以实现 100% 的 GPU 利用率。

或者,您可以使用nvidia-smi -e 0.

注意:我不确定性能是否真的更糟。我记得我能够训练 ML 模型,尽管 GPU 利用率为 100%,但我不知道它是否更慢。


Mil*_*izi 0

我建议您根据需要在 Google 问题跟踪器上报告并创建此问题以进行调查。请在那里提供您的项目编号和实例名称。请遵循此URL,以便您能够在 Google 问题跟踪器中创建私有文件。