如何检查 aws ec2 gpu 实例上的 gpu 使用情况?

apl*_*lrh 6 monitoring amazon-ec2 cpu-usage

我正在 AWS ec2 上运行一个 ubuntu gpu 实例。我不确定我的应用程序是否使用 GPU 加速。那么如何检查 aws gpu 实例上的 gpu 使用情况?

小智 6

  • 使用:nvidia-smi -h查看选项。

  • 显示信息参数:

Display only selected information: MEMORY,
                                    UTILIZATION, ECC, TEMPERATURE, POWER, CLOCK,
                                    COMPUTE, PIDS, PERFORMANCE, SUPPORTED_CLOCKS,
                                    PAGE_RETIREMENT, ACCOUNTING, ENCODER STATS 
Run Code Online (Sandbox Code Playgroud)
  • 例子:nvidia-smi --id=0 --loop=5 --query --display=UTILIZATION

    • --id=0GPU 的数量。用于nvidia-smi --list-gpus获取 GPU 列表
    • --query显示GPU或单元信息
    • --loop=5每 5 秒重复一次查询。
    • -display=UTILIZATION仅显示利用率
  • 输出类似于:

==============NVSMI LOG==============

Timestamp                           : Thu Apr 11 03:48:37 2019
Driver Version                      : 384.183
CUDA Version                        : 9.0

Attached GPUs                       : 1
GPU 00000000:00:1E.0
    Utilization
        **Gpu                         : 9 %**
        Memory                      : 11 %
        Encoder                     : 0 %
        Decoder                     : 0 %
    GPU Utilization Samples
        Duration                    : 18446744073709.22 sec
        Number of Samples           : 99
        Max                         : 10 %
        Min                         : 0 %
        Avg                         : 0 %
    Memory Utilization Samples
        Duration                    : 18446744073709.22 sec
        Number of Samples           : 99
        Max                         : 14 %
        Min                         : 0 %
        Avg                         : 0 %
    ENC Utilization Samples
        Duration                    : 18446744073709.22 sec
        Number of Samples           : 99
        Max                         : 0 %
        Min                         : 0 %
        Avg                         : 0 %
    DEC Utilization Samples
        Duration                    : 18446744073709.22 sec
        Number of Samples           : 99
        Max                         : 0 %
        Min                         : 0 %
        Avg                         : 0 %

Run Code Online (Sandbox Code Playgroud)

您还可以记录到文件 ( --filename=) 并输出 CSV ( --format=csv)。


the*_*bit 3

这是NVIDIA的装备吗?如果是这样,请尝试nvidia-smi -i 3 -l -q -d查看 GPU 和内存利用率统计信息(以及其他信息)。请注意,这仅适用于 1) 旧版 nvidia 驱动程序 (18X.XX) 或 2) NVIDIA Tesla GPU。

  • 它返回: -d 参数缺少值。请运行“nvidia-smi -h”寻求帮助。 (2认同)