错误:NVIDIA-SMI失败,因为它无法与NVIDIA驱动程序通信

Vai*_*uri 7 gpu nvidia

NVIDIA-SMI抛出了这个错误:

NVIDIA-SMI因为无法与NVIDIA驱动程序通信而失败.确保已安装并运行最新的NVIDIA驱动程序

我按照这里提到的步骤清除了NVIDIA并再次安装它.

我的设备规格如下:

  • 带特斯拉M40的服务器
  • 在Ubuntu 16.04上运行
  • 内核版本Linux 4.4.0-116-通用x86_64
  • 司机:nvidia-384

有人可以帮忙解决错误吗?

blu*_*ers 6

注意:此答案来自 2018 年,适用于已过时的 Ubuntu 16.04。不要在最近的 Ubuntu 版本上尝试这个。

尝试

  1. 这里下载驱动程序
  2. sudo apt-get purge nvidia* - 删除您当前的安装
  3. dpkg -i nvidia-diag-driver-local-repo-ubuntu1604_375.66-1_amd64.deb - 安装您之前下载的内容
  4. sudo apt-get update
  5. sudo apt-get install cuda-drivers

在此之后,继续并重新启动计算机。当它再次启动时,nvidia-smi命令应该运行顺利

  • 我按照上述步骤操作,现在当我输入“nvidia-smi”时,它抛出以下错误“modprobe:错误:无法插入‘nvidia_387’:Exec格式错误NVIDIA-SMI失败,因为它无法与NVIDIA驱动程序通信。使确保已安装并运行最新的 NVIDIA 驱动程序。” (2认同)

Rex*_*ang 6

问题可能是由于4.4.0-116补丁中确认的"错误".我遇到了与nvidia-390相同的问题.如果您仍想使用更新版本的Nvidia驱动程序,我按照此处的说明操作并设法解决问题.通常,请使用以下步骤:

  1. 如果无法登录桌面并进入故障循环,请按ctrl+ alt+ F1登录命令行模式.
  2. 检查gcc的版本是否过时,如果是,请更新它: gcc --version
  3. 如果gcc版本为5+,请先卸载nvidia驱动程序: sudo apt-get remove nvidia-390
  4. 清除4.4.0-116内核: sudo apt-get purge linux-headers-4.4.0-116 linux-headers-4.4.0-116-generic linux-image-4.4.0-116-generic linux-image-extra-4.4.0-116-generic linux-signed-image-4.4.0-116-generic
  5. 重新安装内核: sudo apt-get install linux-generic linux-signed-generic
  6. 重新安装nvidia-390: sudo apt-get install nvidia-390
  7. 检查问题是否已解决modinfo nvidia-390 -k 4.4.0-116-generic | grep vermagic,确保此时出现retpoline
  8. 重启: sudo reboot

希望这适用于您和遇到同样问题的其他人.论坛上的帖子节省了我的周末.