为什么我们的raid 阵列失败了？

Question

为什么我们的raid 阵列失败了？

我们有一个旧的 HP DL380 G3，在 RAID 10 阵列中带有 6x36GB Ultra320 SCSI 驱动器。我们仔细监控驱动器，因为它们很旧 - SMART 故障前指示都显示正常。然后 4 天后，2 个驱动器发生故障（实际上这些驱动器可能没有发生物理故障，但 2 个驱动器上的数据已损坏）。这怎么会发生？我不是一个非常相信同时发生和机会的人。

我可以相信单个驱动器故障，但多次故障使我相信还有更多事情发生。我听说 DL380 上的 SCSI 背板可能会发生故障 - 任何人都可以从经验中证实这一点吗？我们应该更换 SCSI 背板吗？重建阵列时是否应该更换所有驱动器？

编辑：我查看了我们最近记录的有关此阵列中驱动器上累计运行小时数的一些统计数据。发生故障的 2 个驱动器的运行年数分别为 0.6 和 2.7 年。在我看来，这似乎否定了驱动器以完全相同的速度恶化并因此非常接近地失败的理论。除非累积的运行时间数据不比SMART更值得信赖？

Answer 1

Hel*_*ick 7

多个驱动器快速连续发生故障并不像人们想象的那么罕见。故障往往遵循所谓的浴缸曲线- 高初始率，因为制造缺陷受到压力导致故障，在驱动器的典型使用寿命内下降到相对较低的率，然后随着设备的磨损而再次上升，因为它们超过了设计寿命。驱动器是机械的，服务器驱动器一直在运行。

当一个驱动器出现故障时，另一个故障的可能性仍然略高，但此类故障通常伴随着压力增加，这有点矛盾，这是由 RAID 重建过程引起的，该过程迫使驱动器执行大量密集的 IO。

最后，SMART 作为可靠性的可靠指标并没有很好的声誉，有一些好处，但总体来说不是很好 - 谷歌有一些非常好的长期研究结果，你可以在这里找到（大型磁盘中的故障趋势）驱动人口）。

基本信息是，当您长时间运行 RAID 包时，您所承担的风险会高于许多人的预期（此处多个驱动器故障的报告数量证明了这一点）。第二个信息是 RAID 可用于提高平均可用性，但始终确保您有一个可接受的备份策略，以防您是不幸的人之一。

归档时间：	16 年，1 月前
查看次数：	384 次
最近记录：	16 年，1 月前