来自 syslogd 的硬件错误消息

Question

来自 syslogd 的硬件错误消息

我有一台运行 CEntOS 的 64 核 AMD 服务器，我在上面运行了很长时间的工作。在输出中间，我看到了这些行。看来是内存错误。这有多严重，它究竟表明了什么？

Message from syslogd@heracles at Nov  7 21:00:02 ...
 kernel:[Hardware Error]: MC4_STATUS[Over|CE|MiscV|-|AddrV|-|-|CECC]: 0xdc10410040080a13    

Message from syslogd@heracles at Nov  7 21:00:02 ...
 kernel:[Hardware Error]: Northbridge Error (node 4): DRAM ECC error detected on the NB.

Message from syslogd@heracles at Nov  7 21:00:02 ...
 kernel:[Hardware Error]: cache level: L3/GEN, mem/io: MEM, mem-tx: RD, part-proc: RES (no timeout)

Run Code Online (Sandbox Code Playgroud)

Answer 1

Hen*_*nes 9

在NB上

NB是北桥。旧电脑使用了许多芯片。最终，这些被集成到了大约 3 个更大的通用芯片中（386/486 时间），后来又集成到了两个中。其中之一涉及 CPU、RAM 和其他高速设备。另一个（“南桥”）处理慢速外围设备）。

检测到 DRAM ECC 错误

动态内存只是主内存（与通常由静态内存制成的缓存相反）。ECC是旨在检测和纠正单个位损坏的内存。

您得到的消息是 NB 试图读取一些内存，但检测到它部分损坏。

在这种情况下，它可以关闭机器（记住老式的“奇偶校验错误：系统停止”），或者可以纠正它，或者可以忽略它。在这种情况下，它似乎已更正它并发出警告。

内存上的单个错误没有理由恐慌。这些事情发生。很少，但它们确实发生了。使用 ECC，您会收到正确的警告，而不是无法解释的崩溃或损坏的数据。

在极快的环境中（例如在访问缓存上），它们甚至并不少见。通常计算机会重试并自行纠正。如果失败，它将抛出MCE。

如果这些事情不断发生：检查 DIMMS 是否正确就位。他们收集了很多灰尘吗？他们通过了memtest吗？等等等等。

归档时间：	13 年，2 月前
查看次数：	11179 次
最近记录：	9 年，11 月前