jsp*_*jsp 1 raid raid5 dell-perc
我有一个 Perc H710 配置为 RAID5,带有 4 个连接的 3TB Seagate 7200rpm 硬盘。
两个月前,我收到了这些虚假错误,使我相信我的控制器坏了。
我更换了控制器,一切正常,直到几天前我开始遇到类似的错误。驱动器 00 和 03 被报告为失败、脱机或丢失。戴尔给我发了另一个(第三个)RAID 控制器,现在 perc bios 说:
Drive 00 missing
Drive 03 missing
Run Code Online (Sandbox Code Playgroud)
所以我拔出驱动器并使用磁盘实用程序单独检查它们。实际上,驱动器 00 和驱动器 03 有坏扇区。我使用的 Linux 磁盘实用程序说驱动器 00 有“一些坏扇区”,驱动器 03 有“许多坏扇区”。
严重地?两个驱动器在同一天出去了?
另一方面,是否有可能一个驱动器在一段时间内发生故障,然后另一个驱动器发生故障,因为它一直在旋转,试图重建第一个......或类似的东西?
这是不可能准确地说什么X驱动器中的时间Y量走出去的几率,但它是安全地说,驱动器故障不是完全独立的,因为一般认为。同一阵列中的多个磁盘故障在时间上很接近,实际上是一种相当普遍的情况。
不到一个月前,我们的一台生产服务器(同一个 RAID 集)在同一个周末有 4 个驱动器一个接一个地出现故障。几乎我们刚更换了一个驱动器,另一个驱动器就失败了……为了安全起见,我们最终最终更换了所有 7 个驱动器。
正如您所提到的,一个原因是重建过程是磁盘密集型的,因此由于压力增加,在变坏边缘摇摇欲坠的磁盘很可能会被推到边缘并失败它正在提供数据以重建新磁盘。
另一个需要考虑的因素是 RAID 阵列中的所有成员往往处于相同的物理环境中,并受到非常相似的物理应力(热、振动、电源波动等),这往往导致更高的发生率与您在不同环境中看到的磁盘相似的故障时间。
而且,如果您和大多数人一样,您可能只是从同一个地方购买了 4 个相同的磁盘,最终得到了同一批的 4 个磁盘,导致这 4 个磁盘具有相同的制造特性(制造过程中的任何缺陷或异常)批处理可能在所有四个磁盘之间共享)。因此,相同环境中的相同磁盘……它们可能具有其他相似的特征(例如它们发生故障时)是有道理的。
最后,磁盘故障不是正态分布的(如钟形曲线)。他们在生命之初(婴儿死亡率)往往有较高的失败率,在很长一段时间之后,当他们因承受的身体压力而磨损和死亡时,失败率相对较低中间失败(浴盆曲线)。
所以,是的,同一 RAID 阵列中的多个驱动器故障经常发生,这也是您总是需要良好备份的原因之一。
这实际上相当普遍,也是经常建议在单个 RAID 组中购买不同批次的硬盘的主要原因。相同的批次通常具有相同的缺陷或阈值。
此外,故障并不总是由驱动器的简单老化引起的,它们也可能由最小的电涌、几分钟的意外负载、相同的睡眠降速等触发。因此,机会当然小于单个驱动器故障,但不是那个百分比的平方。另外,不要忘记单个磁盘故障意味着其他 3 个磁盘的负载增加,因为它们需要协同工作来重新计算丢失的数据。这也可能只是将另一个磁盘推到边缘。在同一主题上,更换驱动器后的重建是一项涉及所有磁盘的每个扇区的高强度操作,这意味着磁盘的另一个危险时刻。
最后,它可能并不总是磁盘。我曾经有一个 RAID-5 设置死在我身上,因为控制器认为 4 个磁盘中的 3 个同时被移除了几分钟。这当然是控制器的故障,但它仍然出现在日志中,因为 3 个磁盘在彼此之后的一分钟内死亡。