训练期间GPU利用率大部分为0％

Question

训练期间GPU利用率大部分为0％

（GTX 1080，Tensorflow 1.0.0）

在训练nvidia-smi输出期间（如下所示）表明，大多数情况下GPU 使用率均为0％（尽管使用了GPU）。关于我已经训练的时间，情况似乎是这样。偶尔，它有时会达到100％或类似的峰值。

+-----------------------------------------------------------------------------+
    | NVIDIA-SMI 375.26                 Driver Version: 375.26                    |
    |-------------------------------+----------------------+----------------------+
    | GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
    | Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
    |===============================+======================+======================|
    |   0  GeForce GTX 1080    Off  | 0000:01:00.0      On |                  N/A |
    | 33%   35C    P2    49W / 190W |   7982MiB /  8110MiB |      0%      Default |
    +-------------------------------+----------------------+----------------------+

    +-----------------------------------------------------------------------------+
    | Processes:                                                       GPU Memory |
    |  GPU       PID  Type  Process name                               Usage      |
    |=============================================================================|
    |    0      1093    G   /usr/lib/xorg/Xorg                             175MiB |
    |    0      1915    G   compiz                                          90MiB |
    |    0      4383    C   python                                        7712MiB |
    +-----------------------------------------------------------------------------+

Run Code Online (Sandbox Code Playgroud)

正如我在本期中所描述的，这种情况发生在我身上。可以使用该github存储库中的代码或通过遵循来自tensorflow网站的此简单重新培训示例并通过类似于会话中的受限per_process_gpu_memory_fraction（小于1.0）来复制该问题：

config = tf.ConfigProto()
config.gpu_options.per_process_gpu_memory_fraction = 0.4
session = tf.Session(config=config, ...)

Run Code Online (Sandbox Code Playgroud)

问题1：如何在训练中使用<1.0的GPU时真正使用（利用）GPU？

问题2：如何在图形卡上真正使用完整的GPU（而不是将其设置为<1.0）？

帮助和提示表示赞赏！

Answer 1

jor*_*emf 6

当创建的图形大于GPU的内存时，TensorFlow会退回到CPU，因为它使用RAM和CPU而不是GPU。因此，只需删除per_process_gpu_memory_fraction并减小批次大小即可。这些示例很可能使用大批处理，因为它是在多个GPU或大于32Gb的CPU中训练的，这不是您的情况。它也可以是您选择的优化程序算法。SGD使用的内存少于其他算法，请尝试先进行设置。在GPU中使用8Gb时，您可以尝试使用16字节和SGD的批量，它应该可以工作。然后，您可以增加批处理大小或使用其他算法（例如RMSprop）。

如果仍然无法正常工作，您可能正在做其他事情。例如，您在每次迭代中都保存一个检查点。保存检查点是在CPU中完成的，并且可能比在GPU中进行简单的迭代花费更多的时间。这可能是您看到GPU使用率激增的原因。

归档时间：	8 年，12 月前
查看次数：	2767 次
最近记录：	7 年，5 月前