如何测试硬件组件以找出哪一个是坏的?

zec*_*hdc 5 hardware debian samba

如何测试硬件组件以找出哪一个是坏的?

细节

我有一台使用 samba 运行 debian 作为文件服务器的旧机器。前几天我无法登录到我的文件服务器。当我查看我的 debian 服务器上的屏幕时,我看到的是:

在此处输入图片说明

它说它是一个硬件错误,看起来它是一个坏 CPU。但是,我不想跑出去买一个新的 CPU,因为我真的不知道我在说什么。

这是我所做的:

  • 我使用 memtest 86+ 连续 66 小时测试了内存。它通过了65次,发现0个错误。所以我认为记性不好是不可能的。但是,我有点好奇,如果系统上出现其他错误,为什么在这 66 小时内它没有崩溃。
  • 我注意到它说java Tainted所以我认为这可能是一个java问题。我禁用了 CrashPlan Backup 服务,因为它使用 java。服务器运行了 4 天。(通常它每 15-30 分钟崩溃一次)在我关闭崩溃计划期间,我将两台计算机连接到服务器,获取 50 GB 的高清视频,对其进行编码并将其放回服务器硬盘驱动器上。没有任何问题。然后一天后它又崩溃了。

我应该假设这是一个 CPU 问题,因为它提到了这一点?

如何测试硬件组件以找出哪一个是坏的?

tri*_*des 7

如果您的硬件来自大型供应商,例如 HP、Dell 等,他们可能会提供适合您的特定工具。我曾经与 HP 合作,他们已经有了报告硬件故障的工具。

如果不是这种情况,那么它会更棘手(根据我的经验),您已经开始很好地测试内存,因为它曾经是一个常见的失败点。

现在,如果您对 CPU 有疑问,您可以将它们暴露于密集型工作中,例如编译内核或任何其他大型源(如 libreoffice、xorg 等)……如果您有多个 CPU,则可以使用 CPU 关联性。

此外,错误消息建议您运行“mcelog --ascii”,您可以这样做并尝试理解这些消息,请阅读下面的两个链接,希望它们能帮助您解决硬件问题:

http://mcelog.org/faq.html#5

http://www.gentoo.org/doc/en/articles/hardware-stability-p1.xml