MCE 错误代码/粉红色屏幕 - 它们应该引起关注吗?

dav*_*lfs 6 server-crashes virtual-machines vmware-esxi

所以我最近购买了一个服务器级系统以及所有服务器级外围设备。我获得了 ESXi 6 的许可并且安装了所有最近的补丁。系统现在已经运行了大约 2 周,突然间我完全崩溃了。

我已将此错误代码解释为“内部计时器错误”。我已将信息转发给 SuperMicro,但老实说,到目前为止,我对他们的回复并不是很自信。我的解释是系统根本不应该崩溃——因为它是一个运行 ESXi 的带有 ECC 内存的 Xeon。

是否有可能这是一次性错误,不应再次发生?你会如何处理这件事?从那些看到过这些类型的错误以及他们最终实际做了什么的人那里寻求一些建议。

碰撞

Fal*_*mot 3

您看到此错误(MCE,机器检查异常)正是因为它具有 ECC RAM。

您在某个地方有一些损坏的硬件,很可能是一个记忆棒,但也可能是一个或多个处理器(也许是 CPU 10?)或介于两者之间的东西。调用您的支持合同。

也可能是硬件的其他位,但每次我看到这种情况时,都是 ECC RAM 出现多位故障。如果 MCE 解码为“内部计时器错误”,则下一个最可能的情况是 CPU 或主板出现故障。