自发重启、机器检查事件、AMD ryzen

Tod*_*eed 5 hardware linux power-supply-unit

我已经在 arch linux 上运行了一个全新的系统大约 3 周,昨晚它自发地重新启动。

重新启动时 journalctl 中没有关闭/暂停,所以我很确定这是硬件相关的,而不是用户空间程序或 acpi。

journalctl
Jul 01 06:21:15 euclid sshd[25731]: ...
-- Reboot --
Jul 01 06:24:46 euclid systemd-journald[305]: Time spent on flushing to /var is 547us for 0 entries.
Run Code Online (Sandbox Code Playgroud)

然后,在启动过程中,

Jul 01 06:24:46 euclid kernel: .... node  #0, CPUs:        #1  #2  #3
Jul 01 06:24:46 euclid kernel: mce: [Hardware Error]: Machine check events logged
Jul 01 06:24:46 euclid kernel: mce: [Hardware Error]: CPU 3: Machine Check: 0 Bank 5: bea0000000000108
Jul 01 06:24:46 euclid kernel: mce: [Hardware Error]: TSC 0 ADDR 1ffff810b4260 MISC d012000101000000 SYND 4d000000 IPID 500b000000000 
Jul 01 06:24:46 euclid kernel: mce: [Hardware Error]: PROCESSOR 2:800f11 TIME 1498915479 SOCKET 0 APIC 3 microcode 800111c
Jul 01 06:24:46 euclid kernel:   #4  #5  #6  #7  #8  #9 #10 #11 #12 #13 #14 #15
Run Code Online (Sandbox Code Playgroud)

当我尝试运行 mcelog 时,我得到

0 % mcelog
mcelog: ERROR: AMD Processor family 23: mcelog does not support this processor.  Please use the edac_mce_amd module instead.
CPU is unsupported
Run Code Online (Sandbox Code Playgroud)

我怀疑 1) 我对该系统的 PSU 尺寸过小,或者 2) 某处过热。

我运行的所有 PSU 计算器都给我推荐了 750W,所以我选择了 850W 的 PSU。不过,现在我正在考虑升级到 1000W PSU。

我的问题是,我如何解释该机器检查事件?我猜它特定于我的 CPU?AMD 是否提供任何信息让我能够解码该错误?而且,我怎么知道我是否因为过热而重新启动?我在 BIOS (ASUS) 中找不到任何事件日志。

编辑:更多细节

处理器:锐龙 7 1700

主板:华硕 Prime x370-Pro

内存:G.SKILL Trident Z (4x 8GB) 3200 (F4-3200C16D-16GTZKW)

电源:EVGA SuperNOVA 850 P2 80+ PLATINUM 850W

GPU:GTX 1080-TI x2

句柄 0x0000,DMI 类型 0,24 字节
BIOS 信息
供应商:American Megatrends Inc.
版本:0604
发布日期:04/06/2017

没有超频。库存 BIOS 设置。

它稳定运行了几个星期。我确实在活动前几天添加了 3x HDD。

编辑:同样的崩溃似乎再次发生

Jul 06 22:46:37 euclid kernel: mce: [Hardware Error]: Machine check events logged
Jul 06 22:46:37 euclid kernel: mce: [Hardware Error]: CPU 12: Machine Check: 0 Bank 5: bea0000000000108
Jul 06 22:46:37 euclid kernel: mce: [Hardware Error]: TSC 0 ADDR 1ffff810b3ef6 MISC d012000101000000 SYND 4d000000 IPID 500b000000000 
Jul 06 22:46:37 euclid kernel: mce: [Hardware Error]: PROCESSOR 2:800f11 TIME 1499406389 SOCKET 0 APIC c microcode 800111c
Run Code Online (Sandbox Code Playgroud)

小智 2

看来这是CPU硬件问题。在 AMD 社区论坛 ( https://community.amd.com/thread/215773 ) 中,建议禁用 SMT 或 OpCache 作为解决方法,直到此问题得到解决。

我在 BIOS 中禁用了 OpCache,启动期间的 mce: [Hardware Error] 消息消失了。我有两个相同的系统,它们在冻结/重新启动方面存在相同的问题。到目前为止,两个系统都没有冻结。