有两次,当我使用 4x1080ti 完成训练模型时,服务器宕机了。服务器为什么会崩溃?
我得到 sysylog 并发现 Nvidia 驱动程序或 GPU 有问题。
系统日志:(和nvidia-bug-report.log)
[第二个]
9 月 6 日 21:11:41 gpu-8-server-intesight 内核:[31429.221258] NVRM:RmInitAdapter 失败!(0x30:0xffff:682)
9 月 6 日 21:11:41 gpu-8-server-intesight 内核:[31429.221337] NVRM:rm_init_adapter 设备承载次要编号 0 失败
9 月 6 日 21:13:54 gpu-8-server-intesight 内核:[31562.154256] NVRM:RmInitAdapter 失败!(0x30:0xffff:682)
9 月 6 日 21:13:54 gpu-8-server-intesight 内核:[31562.154306] NVRM:rm_init_adapter 失败,设备承载次要编号 1
[第一个]
9 月 6 日 02:48:40 gpu-8-server-intesight 内核:[557998.990374] NVRM:PCI 上的 GPU:0000:04:00:GPU-bc54db68-a3cb-54e9-7287-b95c69e41cf1
9 月 6 日 02:48:40 gpu-8-server-intesight 内核:[557998.990375] NVRM:GPU 板序列号:
9 月 6 日 02:48:40 gpu-8-server-intesight 内核:[557998.990376] …