Lor*_*enz 6 memory linux boot freeze hardware-failure
我有一台经过改造的 PC 作为服务器运行。它于 2014 年初组装,在技嘉 Z87-HD3 上包含英特尔酷睿 i7-4770。直到 2017 年初,它开始间歇性冻结(每隔几周到几个月),它的工作非常可靠。没有内核日志,甚至 pstore 崩溃数据或 netconsole 都没有产生任何有意义的信息。物理屏幕空白,网络无响应,10 秒粒度的指标显示与 CPU、RAM 或磁盘上的负载无关。所有 LED 和驱动器仍在运行,但显然不再有 IO。RAM 已经过测试并被证实良好,没有虚假的段错误或任何表明间歇性硬件问题的东西。只是硬冻结。
现在进入非常有趣的部分:一旦系统进入此状态,物理重置按钮将完全停止工作。一旦我按下它,什么也没有发生。它绝对是在物理上工作,因为当系统不在该状态时它 100% 工作。我用万用表检查了 PSU 的电压,它们都很好。我仍然可以通过按电源按钮 5 秒来重置服务器,然后它可以正常启动。
所以我几乎不知道这里发生了什么以及应该归咎于哪个硬件。我有逻辑分析仪,我可以访问 USB 示波器,但没有采样超过 100MSPS,所以我无法探测实际的总线。如果您对可能发生的事情有任何见解,我将不胜感激。
因此,经过多次策略性交换(主板、PSU、CPU)后,我对 CPU 损坏进行了差异确认(测试系统遇到问题,原来的系统不再出现问题)。这是非常出乎意料的结果,因为从未解雇过 MCE,通常您会在硬锁定之前获得 MCE。
不幸的是,由于该板没有 Trace Hub / JTAG 连接器,并且内置 USB3 调试在 Haswell 平台上不可用,我不知道到底出了什么问题。可以肯定的是,芯片最终会处于无法从复位状态释放的状态(自检失败、电源轨未启动,...)。可能与 Haswell 中引入FIVR(全集成电压调节器)有关,但这只是猜测。
如果您遇到此问题,不一定是 CPU,也可能是主板或 PSU(或完全是其他东西)出现故障。我只是想发布此内容以确保完整性,并让人们看到它确实也可能是 CPU 故障(尽管它仍然不太可能)。
| 归档时间: |
|
| 查看次数: |
843 次 |
| 最近记录: |