重启AMI后,NVidia驱动程序未在AWS上运行

Pet*_*ššo 16 drivers nvidia amazon-ec2 amazon-web-services

大家好,我有以下问题:

我用这个AMI启动了一个P2实例.我安装了一些工具,如屏幕,火炬等.然后我使用GPU成功运行了一些实验,我创建了一个实例的图像,以便我可以终止它并在以后再次运行它.

后来我从之前创建的AMI开始了一个新实例.一切看起来很好 - 屏幕,火炬,我的实验都出现在系统上,但我无法像以前那样进行相同的实验:

NVIDIA-SMI因为无法与NVIDIA驱动程序通信而失败.确保已安装并运行最新的NVIDIA驱动程序.

对我来说,看起来可能安装了驱动程序(因为之前安装了所有其他工具),但它们没有运行.这是正确的假设吗?我怎么开始呢?

use*_*760 13

我们最近有这个问题。在我们的案例中,似乎AWS实例上的默认内核已升级(从4.4.0-1049-aws升级到4.4.0-1061-aws),但是新内核未安装nvidia模块:

ubuntu@ip-XXX-XXX-XXX-XXX:~$ ls -laR /lib/modules/4.4.0-1061-aws | grep -i nvidia
ubuntu@ip-XXX-XXX-XXX-XXX:~$ ls -laR /lib/modules/4.4.0-1049-aws | grep -i nvidia
-rw-r--r--  1 root root    87368 Jun 27 10:21 nvidia-drm.ko
-rw-r--r--  1 root root  1155304 Jun 27 10:21 nvidia-modeset.ko
-rw-r--r--  1 root root  1163016 Jun 27 10:21 nvidia-uvm.ko
-rw-r--r--  1 root root 18014088 Jun 27 10:21 nvidia.ko
Run Code Online (Sandbox Code Playgroud)

检查您的内核版本(uname -a),看是否适合您。GRUB配置允许引导旧的内核映像(1049),但默认情况下它正在加载新的内核映像(1061)。/ boot / grub / cfg的相关部分:

ubuntu@ip-XXX-XXX-XXX-XXX:~$ grep -i -e "ubuntu, with linux" /boot/grub/grub.cfg
    menuentry 'Ubuntu, with Linux 4.4.0-1061-aws' --class ubuntu --class gnu-linux --class gnu --class os $menuentry_id_option 'gnulinux-4.4.0-1061-aws-advanced-XXXX' {
    menuentry 'Ubuntu, with Linux 4.4.0-1061-aws (recovery mode)' --class ubuntu --class gnu-linux --class gnu --class os $menuentry_id_option 'gnulinux-4.4.0-1061-aws-recovery-XXXX' {
    menuentry 'Ubuntu, with Linux 4.4.0-1049-aws' --class ubuntu --class gnu-linux --class gnu --class os $menuentry_id_option 'gnulinux-4.4.0-1049-aws-advanced-XXXX' {
    menuentry 'Ubuntu, with Linux 4.4.0-1049-aws (recovery mode)' --class ubuntu --class gnu-linux --class gnu --class os $menuentry_id_option 'gnulinux-4.4.0-1049-aws-recovery-XXXX' {
Run Code Online (Sandbox Code Playgroud)

您可以使用grub-reboot强制在下次重新启动时加载旧内核:

sudo /usr/sbin/grub-reboot "Advanced options for Ubuntu>Ubuntu, with Linux 4.4.0-1049-aws"
sudo reboot
Run Code Online (Sandbox Code Playgroud)

这将使用具有nvidia模块的旧内核启动实例。

  • 仍与4.4.0-1077-aws内核版本相关。我按照说明进行操作,并将内核恢复为4.4.0.1075-aws版本。 (3认同)

Pet*_*ššo 0

重新安装nvidia驱动就解决了这个问题。

  • @MichaelIV 它很短,并不意味着它很糟糕。我认为没有更多可说的,重新安装 Nvidia 驱动程序解决了 OP 的问题,仅此而已。也许他可以添加诸如“1.卸载Nvidia驱动程序2.重新安装Nvidia驱动程序3.重新启动”之类的步骤,但我不确定告诉人们如何重新安装一些驱动程序是否有用。 (3认同)