来自 syslogd 的硬件错误消息

Far*_*hat 8 memory

我有一台运行 CEntOS 的 64 核 AMD 服务器,我在上面运行了很长时间的工作。在输出中间,我看到了这些行。看来是内存错误。这有多严重,它究竟表明了什么?

Message from syslogd@heracles at Nov  7 21:00:02 ...
 kernel:[Hardware Error]: MC4_STATUS[Over|CE|MiscV|-|AddrV|-|-|CECC]: 0xdc10410040080a13    

Message from syslogd@heracles at Nov  7 21:00:02 ...
 kernel:[Hardware Error]: Northbridge Error (node 4): DRAM ECC error detected on the NB.

Message from syslogd@heracles at Nov  7 21:00:02 ...
 kernel:[Hardware Error]: cache level: L3/GEN, mem/io: MEM, mem-tx: RD, part-proc: RES (no timeout)
Run Code Online (Sandbox Code Playgroud)

Hen*_*nes 9

在NB上

NB是北桥。旧电脑使用了许多芯片。最终,这些被集成到了大约 3 个更大的通用芯片中(386/486 时间),后来又集成到了两个中。其中之一涉及 CPU、RAM 和其他高速设备。另一个(“南桥”)处理慢速外围设备)。

检测到 DRAM ECC 错误

动态内存只是主内存(与通常由静态内存制成的缓存相反)。ECC是旨在检测和纠正单个位损坏的内存。

您得到的消息是 NB 试图读取一些内存,但检测到它部分损坏。

在这种情况下,它可以关闭机器(记住老式的“奇偶校验错误:系统停止”),或者可以纠正它,或者可以忽略它。在这种情况下,它似乎已更正它并发出警告。


内存上的单个错误没有理由恐慌。这些事情发生。很少,但它们确实发生了。使用 ECC,您会收到正确的警告,而不是无法解释的崩溃或损坏的数据。

在极快的环境中(例如在访问缓存上),它们甚至并不少见。通常计算机会重试并自行纠正。如果失败,它将抛出MCE

如果这些事情不断发生:检查 DIMMS 是否正确就位。他们收集了很多灰尘吗?他们通过了memtest吗?等等等等。