nvidia-smi 命令提供的 GPU 使用情况与来宾操作系统的 GPU 指标有很大不同

zb2*_*939 5 virtualization task-manager vmware-vcenter nvidia gpu

我正在开发一个可以监控虚拟机 vgpu 使用情况的项目。虚拟机管理程序是vCenter,我们在 vCenter 主机上安装了 nvidia A16 卡,并将 a16 vGPU 分配给该主机上的几个 Windows 虚拟机,这些 vGPU 分配给同一 GPU 芯片。

我尝试使用nvidia-smi命令来检索主机和虚拟机中的 vGPU 使用情况。在我使用的主机中nvidia-smi vgpu,以及在我使用的虚拟机中nvdia-smi。但事实证明,nvidia-smi 提供的指标始终与 VM 中 Windows 操作系统提供的指标不同。

例如,来自Windows任务管理器的使用率nvidia-smi可能低至6%,但Windows任务管理器的使用率始终在15%左右。

在此输入图像描述

我们更愿意相信来宾操作系统提供的指标,因为它反映了用户案例的真实需求。

我的问题是,nvidia-smi指标的含义和来源是什么?为什么结果如此不同?我可以以某种方式修改结果以反映真实的客人需求吗?

感谢您的指点!

小智 1

任务管理器和 nvidia-smi 测量的周期和/或时间点可能不同,这会导致不同的使用百分比。

根据文档

利用率.gpu

过去采样期间一个或多个内核在 GPU 上执行的时间百分比。采样周期可能在 1 秒到 1/6 秒之间,具体取决于产品。

内存利用率

过去采样期间读取或写入全局(设备)内存的时间百分比。采样周期可能在 1 秒到 1/6 秒之间,具体取决于产品。

尝试恒定不变的负载并测量它们是否匹配。