RAID-5:两个磁盘同时出现故障?

Mik*_*der 21 raid storage data-recovery hardware-raid raid5

我们有一台运行 CentOS 的 Dell PowerEdge T410 服务器,其 RAID-5 阵列包含 5 个希捷 Barracuda 3 TB SATA 磁盘。昨天系统崩溃了(我不知道具体是怎么回事,也没有任何日志)。

启动到 RAID 控制器 BIOS 后,我看到在 5 个磁盘中,磁盘 1 标记为“丢失”,磁盘 3 标记为“降级”。我强制备份磁盘 3,并用新硬盘驱动器(相同大小)替换磁盘 1。BIOS 检测到这一点并开始重建磁盘 1 - 但是它卡在了 %1。旋转进度指示器整晚都没有移动;完全冻结。

我在这里有哪些选择?除了使用一些专业的数据恢复服务,还有什么方法可以尝试重建?两个硬盘怎么会同时出现故障?似乎过于巧合。是否有可能是磁盘 1 发生故障,从而导致磁盘 3“不同步”?如果是这样,是否有任何实用程序可以用来“同步”恢复它?

Bas*_*sil 38

您有双磁盘故障。这意味着您的数据已经消失,您必须从备份中恢复。这就是为什么我们不应该在大磁盘上使用 raid 5。您希望设置您的raid,以便您始终能够承受两次磁盘故障,尤其是大型慢速磁盘。

  • RAID5 有两个问题。一:重建时间为 3TB,因为 SATA 驱动器速度较慢,可能会很大,这使得复合故障的几率很高。另一个是不可恢复的误码率 - 大多数 SATA 驱动器的规格表有 1 / 10 ^ 14,即 - 大约 - 12TB 的数据。对于 5 路 3B RAID,当需要重建时,这几乎是不可避免的。 (3认同)
  • 不是一个很有帮助的答案。当然,在 RAID 5 上出现双磁盘故障时,恢复的机会不大。但是 RAID 5 上的大多数双磁盘故障可能只是一个故障磁盘和其他磁盘上一些未纠正的读取错误的问题。如果是这种情况,使用正确的工具仍然可以恢复大部分数据。指向此类工具的指针会有所帮助。 (3认同)

Hop*_*00b 37

您的选择是:

  1. 从备份中恢复。
    • 这样做有备份,不是吗?RAID 不是备份。

  2. 专业数据恢复
    • 虽然非常昂贵且无法保证,但有可能专业的恢复服务能够恢复您的数据。

  3. 接受您的数据丢失并从经验中学习。
    • 如评论中所述,不建议将大型 SATA 磁盘用于 RAID 5 配置,因为在重建期间可能会出现双重故障,从而导致阵列出现故障。
      • 如果一定是奇偶校验RAID,RAID 6更好,下次也用热备盘。
      • SAS 磁盘更好的原因有很多,包括更高的可靠性、弹性和更低的可导致 URE(不可恢复读取错误)的不可恢复位错误率
    • 如上所述,RAID 不是备份。如果数据很重要,请确保对其进行了备份,并且您的备份已经过恢复测试。


pet*_*erh 26

在你接受了一个糟糕的答案之后,我真的很抱歉我的异端观点(它已经多次保存了这样的数组)。

您的第二个故障磁盘可能有一个小问题,可能是块故障。这就是为什么你的raid5固件的同步工具崩溃的原因。

您可以使用低级磁盘克隆工具轻松制作扇区级副本(例如,gddrescue可能非常有用),并将该磁盘用作新磁盘 3。在这种情况下,您的阵列幸免于难,但有轻微的数据损坏。

对不起,可能为时已晚,因为在这种情况下正统回答的本质是:“raid5中的多次失败,这是天启!”

如果您想要非常好的冗余raid,请在linux 中使用软件raid。例如,它的raid superblock 数据布局是公开和记录的......我真的很抱歉,对于我的另一个异端观点。

  • 可惜这得到了投票,它实际上试图帮助 OP 解决与其他一些问题不同的混乱局面。+1 (8认同)
  • @JamesRyan 我同意它会导致一些以后的问题,我什至同意这里存在潜在问题。但是,它确实提供了有关如何恢复某些功能的有效解决方案,并且由于 OP 正在谈论数据恢复专家,因此我只能假设他们没有备份来恢复数据。最后,此解决方案只是修复的一部分,一旦此方法再次启动系统,您可能希望将文件系统传输到 5 个新磁盘,然后重要的是对其进行备份。 (4认同)
  • @Vality 它并没有试图解决混乱,而是扩展了他的问题。一个带有烧毁的损坏块的raid5会带来无尽的痛苦,因为它会通过完整性检查但会定期降级。他也不知道哪些数据已损坏。如果它像固定块一样简单,那将是标准解决方案。 (3认同)