停止并启动深度学习虚拟机后找不到 NVIDIA 驱动程序

Question

停止并启动深度学习虚拟机后找不到 NVIDIA 驱动程序

zud*_*udi 7 debian nvidia google-cloud-platform nvidia-smi

[TL;DR]首先，等待几分钟并检查 Nvidia 驱动程序是否开始正常工作。如果没有，请停止并重新启动 VM 实例。

我创建了一个带有 A100 GPU 的深度学习虚拟机（Google 点击部署）。停止并启动实例后，当我运行时nvidia-smi，我收到以下错误消息：

NVIDIA-SMI 失败，因为它无法与 NVIDIA 驱动程序通信。确保已安装并运行最新的 NVIDIA 驱动程序。

但如果我输入which nvidia-smi，我得到

/usr/bin/nvidia-smi

好像驱动有但是不能用。有人可以建议如何在停止和启动深度学习虚拟机后启用 NVIDIA 驱动程序吗？我第一次创建并打开实例时，会自动安装驱动程序。

系统信息是（使用uname -m && cat /etc/*release）：

x86_64
PRETTY_NAME="Debian GNU/Linux 10 (buster)"
NAME="Debian GNU/Linux"
VERSION_ID="10"
VERSION="10 (buster)"
VERSION_CODENAME=buster
ID=debian
HOME_URL="https://www.debian .org/"
SUPPORT_URL="https://www.debian.org/support"
BUG_REPORT_URL="https://bugs.debian.org/"

我尝试了GCP 的安装脚本。第一次运行

curl https://raw.githubusercontent.com/GoogleCloudPlatform/compute-gpu-installation/main/linux/install_gpu_driver.py --output install_gpu_driver.py

Run Code Online (Sandbox Code Playgroud)

然后运行

sudo python3 install_gpu_driver.py

Run Code Online (Sandbox Code Playgroud)

它给出以下消息：

执行：which nvidia-smi
/usr/bin/nvidia-smi
已经安装。

Answer 1

zud*_*udi 5

发布问题后，Nvidia 驱动程序在等待几分钟后开始正常工作。

在接下来的几天里，我多次尝试停止/启动虚拟机实例。有时nvidia-smi直接起作用，有时等待超过 20 分钟后不起作用。我目前对这个问题的最佳答案是先等待几分钟。如果nvidia-smi仍然不起作用，请停止并重新启动实例。

归档时间：	4 年，2 月前
查看次数：	3502 次
最近记录：	2 年，7 月前