小编zil*_*ong的帖子

NVRM: RmInitAdapter failed: Xid: 79, GPU has fall off the bus

有两次,当我使用 4x1080ti 完成训练模型时,服务器宕机了。服务器为什么会崩溃?

我得到 sysylog 并发现 Nvidia 驱动程序或 GPU 有问题。

系统日志:(和nvidia-bug-report.log

[第二个]

9 月 6 日 21:11:41 gpu-8-server-intesight 内核:[31429.221258] NVRM:RmInitAdapter 失败!(0x30:0xffff:682)

9 月 6 日 21:11:41 gpu-8-server-intesight 内核:[31429.221337] NVRM:rm_init_adapter 设备承载次要编号 0 失败

9 月 6 日 21:13:54 gpu-8-server-intesight 内核:[31562.154256] NVRM:RmInitAdapter 失败!(0x30:0xffff:682)

9 月 6 日 21:13:54 gpu-8-server-intesight 内核:[31562.154306] NVRM:rm_init_adapter 失败,设备承载次要编号 1

[第一个]

9 月 6 日 02:48:40 gpu-8-server-intesight 内核:[557998.990374] NVRM:PCI 上的 GPU:0000:04:00:GPU-bc54db68-a3cb-54e9-7287-b95c69e41cf1

9 月 6 日 02:48:40 gpu-8-server-intesight 内核:[557998.990375] NVRM:GPU 板序列号:

9 月 6 日 02:48:40 gpu-8-server-intesight 内核:[557998.990376] …

crash ubuntu driver nvidia multi-gpu

2
推荐指数
1
解决办法
7663
查看次数

标签 统计

crash ×1

driver ×1

multi-gpu ×1

nvidia ×1

ubuntu ×1