nvidia-smi 挂起。即使被 SIGKILL 也无法杀死

Ale*_*yan 5 nvidia amazon-ec2 gpu

我刚刚将最新的 nvidia 驱动器小心地安装到一个新的亚马逊 g2.2xlarge ec2 实例,我想用它来做一些机器学习。

在安装cuda等包之前,我想验证一下驱动是否安装正确。

我的理解是 nvidia-smi 是这项工作的工具。

当我不使用任何选项时, nvidia-smi 命令似乎会返回输出。

ubuntu@ip-10-220-191-26:~$ nvidia-smi 
Tue Apr  5 05:51:06 2016       
+------------------------------------------------------+                       
| NVIDIA-SMI 352.39     Driver Version: 352.39         |                       
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
Killed
Run Code Online (Sandbox Code Playgroud)

但是,如果我要求它显示 GPU 甚至帮助页面,它就会挂起。

ubuntu@ip-10-220-191-26:~$ nvidia-smi -L
Run Code Online (Sandbox Code Playgroud)

我什至不能用 SIGKILL 杀死它。我必须重新启动机器。

ubuntu@ip-10-220-191-26:~$ ps aux | grep smi
ubuntu    3919  0.0  0.0  14120   932 pts/0    D+   05:37   0:00 nvidia-smi -h
ubuntu    3991  0.0  0.0  14120   928 pts/1    D+   05:38   0:00 nvidia-smi -L
ubuntu    4064  0.0  0.0  10460   928 pts/2    S+   05:42   0:00 grep --color=auto smi
ubuntu@ip-10-220-191-26:~$ kill 3919
ubuntu@ip-10-220-191-26:~$ kill 3991
ubuntu@ip-10-220-191-26:~$ ps aux | grep smi
ubuntu    3919  0.0  0.0  14120   932 pts/0    D+   05:37   0:00 nvidia-smi -h
ubuntu    3991  0.0  0.0  14120   928 pts/1    D+   05:38   0:00 nvidia-smi -L
ubuntu    4066  0.0  0.0  10460   932 pts/2    S+   05:43   0:00 grep --color=auto smi
Run Code Online (Sandbox Code Playgroud)

我不确定如何调试这个问题。

我只想验证驱动器是否正确安装并与 GPU 通信。

pip*_*726 1

这可能是 GPU 错误,这就是$nvidia-smi挂起的原因。尝试运行:
$ journalctl -p 3 | grep -i "nvidia"

浏览日志以查找问题的错误消息/代码。