L3 缓存中的 ECC 错误 - 关键与否?

L3e*_*ror 5 hardware linux ecc

在 linux 服务器(8x 四核 AMD 8378)上,我收到以下错误:

[Hardware Error]: MC4_STATUS[-|CE|MiscV|-|AddrV|CECC]: 0x9c294c00001d018b
[Hardware Error]: Northbridge Error (node 4): ECC error in L3 cache tag.
[Hardware Error]: cache level: L3/GEN, tx: GEN, mem-tx: SNP
[Hardware Error]: Machine check events logged
Run Code Online (Sandbox Code Playgroud)

这在上个月发生了 3 次,但从未发生过(服务器运行了 3 年)。

从快速的谷歌搜索来看,这似乎是一个严重的问题。

但是,供应商支持技术人员说:

我已经多次看到这些错误,除非您对 CPU 进行超频 - 或者出现风扇故障或类似故障 - 否则不太可能是处理器问题。内核误报错误的可能性更大。

那么 - 这是一个严重错误,我应该订购新部件(更换 CPU?)还是忽略它?

非常感谢。

Mic*_*ton 5

最佳实践:尽可能保留自己的备件。

至于机器检查异常,这些是由硬件报告的;内核只是将消息传递给您,以便您可以在硬件问题失控并导致真正的灾难之前采取行动。

我能够找到的内核“错误报告”机器检查异常的唯一实例如下。在这种情况下,导致问题的是处理器中的缺陷,而不是内核。

Intel Xeon 处理器 E7 系列处理器存在一个问题,即某些 c 状态转换可能会导致错误的可纠正机器检查异常 (MCE) 错误从 MCE 组 6 报告给用户。在某些 E7 处理器系列系统上,这会导致 MCE 错误“泛滥”。此补丁禁用组 6 的 MCE 错误报告。

底线:在我看来,供应商试图避免更换有缺陷的硬件。