为什么我的硬盘出现故障?

K. *_*ert 23 troubleshooting hard-drive

我有一个在家里运行的小型 Ubuntu 服务器,有 2 个硬盘驱动器。磁盘上有两个软件突袭 (raid1),由 mdadm 管理,我认为这无关紧要,但还是提一下。

两个硬盘都是西部数据,用了两年左右,其中一个开始发出咔嗒声,死了。我想这可能是 2 年后自然而然的,所以我买了一个新的,并重新同步了 RAID 阵列。大约一个月后,另一个驱动器也死了。

我没有怀疑,因为两个驱动器是同时购买的,看到它们彼此靠近并不奇怪,所以我又买了一个。

到目前为止,系统中有 2 个旧驱动器出现故障,2 个全新驱动器出现故障。一个月后,其中一个新驱动器报废。这是它开始怀疑的时候。由于 PC 是由一些非常旧的部件组装而成的(想想 AthlonXP),我认为主板的 SATA 控制器可能是罪魁祸首。当然你不能在这样的旧电脑上轻松切换部件,所以我买了一个完整的系统,新的 MB,新的 CPU,新的 RAM。拿回刚刚出故障的驱动器,因为它在保修期内,并更换了它。

因此,旧驱动器最多有 2 个故障驱动器,新驱动器有 1 个故障驱动器。没问题,1个月。在那之后,/var/log/messages 中的错误再次出现,mdadm 报告了raid 阵列故障。我开始撕掉我的头发。系统中的一切都是新的,直到第三个全新的硬盘驱动器,我购买的所有新驱动器都不可能都有故障。

让我们看看什么仍然是常见的......电缆。好的,远射,让我们更换 SATA 电缆。拿回硬盘,对柜台的那个人微笑,说我真的很倒霉。他更换了硬盘。我回到家,一个月过去了,一个硬盘驱动器再次出现故障。我不是在开玩笑。

两个全新的硬盘驱动器出现故障。也许这是操作系统中的错误。让我们看看制造商的测试工具怎么说。下载测试工具,将其刻录到 CD,重新启动,让硬盘测试过夜。测试表明驱动器有问题,如果我仍然可以,我应该备份所有内容。我不知道发生了什么,但它看起来不像是软件问题,肯定是硬盘驱动器有问题。

我现在应该提一下,整个系统都在一个鞋盒里。由于有很多“构建你自己的宜家案例”的东西,我认为把东西扔进盒子里,然后把它塞到某个地方应该没有任何问题。盒子通风良好,但我认为可能是驱动器过热。对此没有其他可能的答案。所以我把硬盘拿回来,换了(第三次),买了硬盘冷却器。

而就在刚才,我听到了厄运的声音。点击 点击 whizzzzzzzzzz。SSH 进入盒子:

You have new mail!
mail
r 1
DegradedArrayEvent on /dev/md0 ...
Run Code Online (Sandbox Code Playgroud)

dmesg 输出:

[47128.000051] ata3: lost interrupt (Status 0x50)
[47128.000097] end_request: I/O error, dev sda, sector 58588863
[47128.000134] md: super_written gets error=-5, uptodate=0
[48043.976054] ata3: lost interrupt (Status 0x50)
[48043.976086] ata3.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen
[48043.976132] ata3.00: cmd c8/00:18:bf:40:52/00:00:00:00:00/e1 tag 0 dma 12288 in
[48043.976135] res 40/00:00:00:4f:c2/00:00:00:00:00/00 Emask 0x4 (timeout)
[48043.976208] ata3.00: status: { DRDY }
[48043.976241] ata3: soft resetting link
[48044.148446] ata3.00: configured for UDMA/133
[48044.148457] ata3.00: device reported invalid CHS sector 0
[48044.148477] ata3: EH complete
Run Code Online (Sandbox Code Playgroud)

回顾:

  1. 没有过热的可能
  2. 6 个驱动器出现故障,其中 4 个是全新的。我现在不确定原来的两个有问题,或者和新的一样。
  3. 除了现在是 Ubuntu Karmic 的操作系统(从 Jaunty 开始)之外,系统中没有任何共同之处。新 MB、新 CPU、新 RAM、新 SATA 电缆。
  4. 不,硬盘上的小孔没有被盖住

我在哭。真的。我现在没有脸回到商店,4个驱动器不可能在4个月内出现故障。

我一直在思考的一些想法:当我对驱动器进行分区和重新同步时,是否可能会搞砸一些事情?它会如此糟糕以致于对驱动器造成物理破坏吗?(因为供应商提供的工具说驱动器已损坏)我使用 fdisk 进行分区,并为 raid1 分区使用相同的块大小(我使用 fdisk -lu 检查确切的块大小)

是否有可能是 Linux 内核或 mdadm 或某些东西与这个确切品牌的硬盘驱动器不兼容,并且会破坏它们?

有没有可能是鞋盒?试试把它放在别的地方?它现在在架子下,所以湿度也不是问题。普通的 PC 机箱有没有可能解决我的问题(我要开枪了)?明天我会得到一张照片。

我只是被诅咒了吗?

非常感谢任何帮助或推测。

编辑:电源板防止过压。

Edit2:我已经在这 4 个月之间移动了,所以这两个地方的原因都是“脏”电的可能性非常低。

Edit3:我检查了BIOS中的电压(无法借用万用表),它们似乎都是正确的,最大的差异在12V,因为它提供11.3。我应该为此担心吗?

Edit4:我将台式电脑的 PSU 放入服务器。BIOS 报告了更准确的电压读数,并且它也成功地重建了 raid1 阵列,这花了大约 3-4 个小时,所以我现在感觉有点积极。明天将获得一个新的 PSU 进行测试。另外,附上关于盒子的图片:(忽略第三个驱动器)

厄运之盒的图片

Way*_*man 26

你的电源也是旧的吗?也许它的驱动器功率不足/压倒了导致故障的驱动器。如果您有万用表,我会尝试测量硬盘驱动器中运行的电压并观察一段时间。另一个罪魁祸首可能是“脏”电,因此 UPS 可能会“清洁”进入 PSU 的电源。

  • 很可能是 PSU 加上没有接地。您引用的 +12V 电压非常低(实际上超出了 ATX 规范),我从经验中知道 HDD 对低电压是多么脆弱 - 它们会产生各种奇怪的错误,因此您认为您的 MB、CPU 或内存有问题。对于使用 PC 的任何人来说,实际上值得保留一个已知良好的 PSU,这样您就可以检查问题是否与电源无关。 (2认同)

Ric*_*d T 14

我同意其他人的看法:权力。

然而,有一个转折。

所有组件都需要有一个公共接地 - 底盘是典型的,但就您而言,谁知道呢!我敢肯定,“漂流地”会导致这种情况

您希望所有组件都连接到单个接地,并且该接地连接到您设施的“电网”接地的接地。这个很重要。

顺便说一句,这是可能的,所有旧的硬件确实还行!我发现使用片状电源的设备有时在提供适当的电源时可以正常工作。

我希望这有帮助。

转播时间

  • 我在运行“无壳”系统时遇到了接地问题(所有部件都安装在丛上并挂在墙上。)解决方案是从电源盒到每个设备的外壳和主板的接地连接一根地线。 (6认同)

小智 5

这是一个旧帖子,原始问题可能不再与提出问题的人相关。但是,为了将来构建预算 PC 的人们的参考,电源并不是磁盘驱动器的一个包罗万象的问题。根据我作为 EMC 认证实施工程师的专业意见,鉴于计算机位于纸板箱内,这是将电源归咎于唯一责任方的误导性回答。

硬盘振动,虽然没有特定的位置(垂直或水平)来增加或减少磁盘的寿命,但是,带有主轴的硬盘驱动器会产生振动因素。此处显示的驱动器只是放置在纸板箱中。这是预算工程的一个例子,振动驱动器位于其一侧,进一步增加了盘片上的共振。虽然这本身并不是一个答案,但由于振动盘片会干扰读写磁头正确接触盘片,因此安装不当的硬盘可能会导致磁盘故障。

电源、廉价电源通常对计算机不利,但是,这个 PSU 不太可能杀死硬盘驱动器而不是板上其他更敏感的组件。这个系统在一个纸板箱里,所以工程和电源可能会导致更灾难性的故障,但不一定是他的磁盘故障。这是可能的,但在这种情况下没有得到证实。

热量:热量会损坏磁盘,但是,如果在发生故障时触摸起来并不热,则热量不是罪魁祸首。对于 PC 或服务器而言,卡板箱并不是一项出色的工程壮举。最好将零件用螺栓固定在电脑桌或工作台上,至少它们会接地。

软 RAID 和便宜的驱动器。鉴于照片中看到的卡板盒和旧部件,您似乎使用的是标准台式机驱动器和软 RAID。桌面驱动器可以放置在 RAID 控制器上,但是,随着磁盘上 I/O 的增加,磁盘故障的可能性也会增加。在这种情况下,映像的磁盘不在硬件 RAID 控制器上,而是与主板上的软件组件组合在一起。这对硬盘驱动器来说并不理想。这会增加 CPU 的工作量,并且已知软 RAID 会出现错误并过早地杀死硬盘驱动器。很可能软RAID首先杀死了这些驱动器。

对未来构建的预防:如果您正在阅读本文并通过谷歌问题或其他方式看到这个旧用户场景:

- 确保您的磁盘正确安装在稳定的硬盘驱动器机箱中。用至少 4 颗硬盘驱动器螺钉固定您的磁盘,或使用与您的机箱配套的特殊磁盘底座。

- 确保机箱内有足够的空气流通,RAID 中的硬盘往往在磁盘上具有更多 I/O,并且比单独安装物理卷时要热得多。

- 不要使用廉价的电源。肮脏的电源是昂贵的计算机部件的杀手。还要确保您的电源提供足够的瓦数来处理所需的工作负载。

-使用RAID控制卡!切勿使用主板上的软 RAID。与 RAID 控制卡相比,软 RAID 会降低磁盘性能并增加磁盘故障的机会。

-RAID 通常会增加磁盘故障的机会,因为所有卷的 I/O 都增加了。加入的磁盘池越大,驱动器发生故障的可能性就越大。如果您对驱动器进行 RAID,请始终使用奇偶校验驱动器和热备件。如果您使用 RAID 0 2-3 磁盘,您可能会丢失数据。如果您有 3 个磁盘,请使用 RAID 5!如果您的驱动器在保修范围内,则 RAID 5 (4+1) 上的 6 个磁盘和热备用是理想的选择。如果您买不起更多磁盘或您的磁盘已过保修期,请不要使用 RAID。

- 桌面驱动器不是企业驱动器。桌面驱动器类似于企业驱动器,但并非旨在处理 RAID 控制器带来的巨大工作负载。如果您从 newegg 购买台式机驱动器并在您的主板上对其进行 RAID,您可能会在第一年看到至少一个驱动器故障。您在 RAID 上运行机器的时间越长,写入磁盘的 I/O 就越多,卷出现故障的可能性就越大。将便宜的驱动器与便宜的主板软 RAID 相结合,您会受到伤害。

该用户很可能在他的鞋盒服务器中经历了所有这些因素。廉价的电源、不良的气流、没有正确安装在机箱中的旧式廉价驱动器以及主板软 RAID……这些都增加了磁盘故障的可能性。