libnvidia-compute 更新后 NVML 驱动程序/库不匹配

use*_*710 8 ubuntu apt cuda nvidia

我正在运行 Ubuntu 18.04,最近(大约一个月)通过运行文件安装安装了 CUDA 10.2,在使用稍微推荐的 .deb安装遇到很多麻烦之后。一切都很好:nvidia-smi 显示了 GPU 统计数据,并且我能够在 GPU 上运行我的并行代码。今天我启动了我的机器,软件中心建议了一些更新...这似乎只是libnvidia-compute-440软件包中的普通内容,但我没有太注意并安装了所有更新。之后,我的CUDA代码不起作用,我尝试nvidia-smi并得到了

Failed to initialize NVML: Driver/library version mismatch

我重新启动系统,仍然出现错误。我花了一个下午的时间在谷歌上搜索可能的解决方案,我想我能够找到问题的核心:运行dmesg |tail -4给出

NVRM: API mismatch: the client has the version 440.59, but
NVRM: this kernel module has the version 440.33.01.  Please
NVRM: make sure that this kernel module and all NVIDIA driver
NVRM: components have the same version.
Run Code Online (Sandbox Code Playgroud)

我现在拥有的软件包版本libnvidia-compute-440确实是440.59,但我的驱动程序版本是440.33.01,如dmesg |grep nvidia(或我尝试过的类似命令)所示(参见第三行)

 [   16.462737] nvidia-nvlink: Nvlink Core is being initialized, major device number 237
[   16.463235] nvidia 0000:03:00.0: enabling device (0006 -> 0007)
[   16.785628] nvidia-modeset: Loading NVIDIA Kernel Mode Setting Driver for UNIX platforms 440.33.01  Tue Nov 12 23:43:11 UTC 2019
[   16.916202] [drm] [nvidia-drm] [GPU ID 0x00000300] Loading driver
[   16.916205] [drm] Initialized nvidia-drm 0.0.0 20160202 for 0000:03:00.0 on minor 1
Run Code Online (Sandbox Code Playgroud)

事实上,通过查看/var/log/apt/history.log我可以看到 libnvidia-compute-440 已从 更新440.33.01-0ubuntu1440.59-0ubuntu0.18.04.133.01。所有这些证据使我得出的结论是,我可以尝试回到该库的先前版本,但是apt-get install libnvidia-compute-440=440.33.01(我认为这是正确的语法)给了我E: Version '440.33.01' for 'libnvidia-compute-440' was not found.

我真的希望确实存在一个并不意味着卸载 CUDA 的解决方案,因为安装它花了我一个周末,正如我所说,这对我来说是一个 PITA。

use*_*710 8

更新:已解决

我非常谨慎,担心我会弄乱我的 CUDA 安装。不过我鼓起勇气更新了我的 nvidia 驱动程序

sudo apt install nvidia-driver-440

它成功更新了驱动程序,现在与 libnvidia-compute 版本440.59匹配。

重新启动后一切正常,就像以前一样。