nvidia-smi进程挂起,也不能用SIGKILL杀死

bio*_*bio 18 linux nvidia linux-device-driver

我在Ubuntu 14.04,CUDA工具包8,驱动程序版本367.48.

当我发出nvidia-smi命令时,它会无限期地挂起.当我再次登录并试图杀死该nvidia-smi进程时,kill -9 <PID>例如,它就没有被杀死.如果我给另一个nvidia-smi命令,我发现两个进程都在运行 - 当然是从另一个shell登录时,因为它像以前一样被卡住了.

它可能是与驱动程序有关的问题吗?这不是最新的,但还是很新的......

lur*_*her 10

在每次启动时都解决了这个问题

sudo nvidia-smi -pm 1

以上命令启用持久性模式.这个问题已经影响了nvidia驱动程序超过两年,但他们似乎并没有兴趣修复它.这似乎与电源管理问题有关,在稍微启动操作系统后,如果nvidia-persistenced服务no-persistence-mode启用了选项,GPU将节省电量,nvidia-smi命令将挂起等待某些东西再次在设备上控制它

  • 谢谢。即使使用驱动程序版本:410.79 和 CUDA 10,问题仍然存在。我需要wakeonlan 来启动和停止带有 RTX2080 egpu 的 T480。大多数情况下,nvidia-persistenced 服务挂起,只有物理断电才能杀死该服务。在我的 nvidia-persistenced 服务中,没有启用 no-persistence-mode 选项。这个 nvidia-persistenced 服务真的是一团糟,默认情况下它不起作用。 (2认同)