NVRM: RmInitAdapter failed: Xid: 79, GPU has fall off the bus

zil*_*ong 2 crash ubuntu driver nvidia multi-gpu

有两次,当我使用 4x1080ti 完成训练模型时,服务器宕机了。服务器为什么会崩溃?

我得到 sysylog 并发现 Nvidia 驱动程序或 GPU 有问题。

系统日志:(和nvidia-bug-report.log

[第二个]

9 月 6 日 21:11:41 gpu-8-server-intesight 内核:[31429.221258] NVRM:RmInitAdapter 失败!(0x30:0xffff:682)

9 月 6 日 21:11:41 gpu-8-server-intesight 内核:[31429.221337] NVRM:rm_init_adapter 设备承载次要编号 0 失败

9 月 6 日 21:13:54 gpu-8-server-intesight 内核:[31562.154256] NVRM:RmInitAdapter 失败!(0x30:0xffff:682)

9 月 6 日 21:13:54 gpu-8-server-intesight 内核:[31562.154306] NVRM:rm_init_adapter 失败,设备承载次要编号 1

[第一个]

9 月 6 日 02:48:40 gpu-8-server-intesight 内核:[557998.990374] NVRM:PCI 上的 GPU:0000:04:00:GPU-bc54db68-a3cb-54e9-7287-b95c69e41cf1

9 月 6 日 02:48:40 gpu-8-server-intesight 内核:[557998.990375] NVRM:GPU 板序列号:

9 月 6 日 02:48:40 gpu-8-server-intesight 内核:[557998.990376] NVRM:Xid (PCI:0000:04:00): 79,GPU 已脱离总线。

9 月 6 日 02:48:40 gpu-8-server-intesight 内核:[557998.990377] NVRM:0000:04:00.0 处的 GPU 已脱离总线。

9 月 6 日 02:48:40 gpu-8-server-intesight 内核:[557998.990377] NVRM:GPU 在板上。

9 月 6 日 02:48:40 gpu-8-server-intesight 内核:[557998.990655] NVRM:已创建 GPU 故障转储。如果可能,请运行

9 月 6 日 02:48:40 gpu-8-server-intesight 内核:[557998.990655] NVRM:nvidia-bug-report.sh 作为 root 收集此数据之前

9 月 6 日 02:48:40 gpu-8-server-intesight 内核:[557998.990655] NVRM:NVIDIA 内核模块已卸载。

9 月 6 日 02:48:41 gpu-8-server-intesight 内核:[557999.884383] NVRM:0000:04:00.0 处的 GPU 已脱离总线。

9 月 6 日 02:48:41 gpu-8-server-intesight 内核:[557999.901942] NVRM:已创建 GPU 故障转储。如果可能,请运行

9 月 6 日 02:48:41 gpu-8-server-intesight 内核:[557999.901942] NVRM:nvidia-bug-report.sh 作为 root 收集此数据之前

9 月 6 日 02:48:41 gpu-8-server-intesight 内核:[557999.901942] NVRM:NVIDIA 内核模块已卸载。

9 月 6 日 02:48:41 gpu-8-server-intesight 内核:[558000.356948] NVRM:RmInitAdapter 失败!(0x30:0xffff:682)

9 月 6 日 02:48:41 gpu-8-server-intesight 内核:[558000.444379] NVRM:rm_init_adapter 失败,设备承载次要编号 0

9 月 6 日 02:48:45 gpu-8-server-intesight 内核:[558004.604173] NVRM:request_irq() 失败 (-22)

9 月 6 日 02:48:48 gpu-8-server-intesight 内核:[558007.497475] NVRM:RmInitAdapter 失败!(0x23:0x56:468)

9 月 6 日 02:48:48 gpu-8-server-intesight 内核:[558007.497489] NVRM:rm_init_adapter 因设备承载次要编号 0 而失败

9 月 6 日 02:48:50 gpu-8-server-intesight 内核:[558008.878985] NVRM:request_irq() 失败 (-22)

9 月 6 日 02:48:53 gpu-8-server-intesight 内核:[558011.735642] NVRM:RmInitAdapter 失败!(0x23:0x56:468)

9 月 6 日 02:48:53 gpu-8-server-intesight 内核:[558011.735658] NVRM:rm_init_adapter 因设备承载次要编号 0 而失败

9 月 6 日 02:48:54 gpu-8-server-intesight 内核:[558013.108772] NVRM:request_irq() 失败 (-22)

9 月 6 日 02:48:55 gpu-8-server-intesight 内核:[558013.757168] BUG:无法处理 0000000132081000 处的内核分页请求

9 月 6 日 02:48:55 gpu-8-server-intesight 内核:[558013.757173] IP:[] kmem_cache_alloc+0x77/0x1f0

9 月 6 日 02:48:55 gpu-8-server-intesight 内核:[558013.757175] PGD 10357d8067 PUD 0

Tho*_*ani 5

我们遇到过这个问题。据我所知,使用多个 GPU 和 X99 主板的设置非常相似。我们设法通过设置pcie_aspm=off引导内核参数来减轻错误。如果您在提供的 nvidia 错误报告日志中搜索“aspm”,您会注意到以下内容:

[0.167842] ACPI FADT 声明系统不支持 PCIe ASPM,因此禁用它

[0.278085] acpi PNP0A03:03:FADT 表示不支持 ASPM,使用 BIOS 配置

[0.282583] acpi PNP0A08:00:FADT 表示不支持 ASPM,使用 BIOS 配置

[2.795337] r8169 0000:0a:00.0:无法禁用ASPM;操作系统没有 ASPM 控制

目前我们的 GPU 服务器仍然存在一些问题,但这可能会有所帮助。

我最初在这个线程上发现了这个想法

更新:我们仍然偶尔会收到RmInitAdapter消息,但我们不再有任何稳定性问题。为了记录,我们现在正在运行 Nvidia 的 387.34 驱动程序,我们有以下启动参数:

pcie_aspm=off rcutree.rcu_idle_gp_delay=1
Run Code Online (Sandbox Code Playgroud)

作为旁注,我们还有一个基于 X299 主板的更新的四核 GPU 盒,我们也有类似的问题。

有关的: