降级阵列。RAID 6 三盘故障

Art*_*tro 12 software-raid

我有一个带有 RAID 6 和 16 驱动器的磁盘阵列。几天前,三个磁盘出现故障,阵列被标记为“降级”。我无法访问数据,也无法启动到操作系统。我需要访问数据,但我无能为力。有什么建议吗?如何恢复或访问数据?我可以使用 Live cd 来启动操作系统吗?我正在使用 SAS 磁盘。提前致谢

Mas*_*imo 42

如前所述,如果 RAID-6 阵列中的两个以上磁盘失效,则该阵列将无法恢复。

然而,三个同时发生的磁盘故障是不太可能发生的事件:很可能是机箱、背板和/或控制器出现故障的情况。

您应该尝试移除并重新插入磁盘,更换控制器和/或机箱,甚至将磁盘放在具有相同控制器的不同服务器中(如果您有可用的控制器)。

  • 或者我对 RAID5 上的两个磁盘“故障”所做的事情 - 对所有内容进行映像并使用软件从中恢复数据。驱动器实际上一切正常,控制器则不然。或者我在 RAID5 上丢失了 5 个中的 5 个的那一天 - 在死亡时控制器在每个驱动器的开头写入了一个零块。所有数据都完好无损,但替换控制器无法识别磁盘是阵列的一部分。同样的修复。 (12认同)
  • 更有可能的是,阵列多年来未经检查,随着时间的推移,3 个硬盘驱动器出现故障。我的猜测是控制器还不错,实际上是 3 个故障驱动器。 (6认同)
  • @0fnt 这不是数学问题,而是在创建数学模型以接近现实时所做的假设。例如,大多数时候所有磁盘都是同时购买的。正如您所说,如果您将故障建模为纯随机的,则没关系,但是如果您将故障建模为磁盘老化的可能性更大,那么就会产生很大的不同。甚至没有去除独立故障假设。 (5认同)
  • 0fnt - 如果出现问题,可能不太可能 - 例如,风扇故障或 2 - 导致热量积聚影响多个磁盘 (5认同)
  • 我已经看到建议从不同制造商购买 RAID 磁盘以减少多个驱动器故障的可能性。对我来说听起来很明智,但我不确定它是否真的如此。 (2认同)

eww*_*ite 19

您没有提供有关服务器类型、RAID 控制器类型或任何特定内容的任何详细信息。

尝试将所有设备关闭 10 分钟...断开服务器电源。让驱动器减速。

重新打开服务器电源并查看 RAID 控制器是否重新识别驱动器并能够启动。


sho*_*hok 14

如评论中所述,RAID6 最多可承受两个磁盘故障;如果第三个磁盘出现故障,则您的阵列将失效。

最明显的是从备份中恢复。如果这是不可能的并且至少有一个故障磁盘仍然可读(尽管有读取错误),您可以尝试在另一个健康磁盘(例如:via ddrescue <failed_disk> <new_disk>)上对每个故障磁盘进行块级复制,然后重新- 使用这些副本(加上其他好的磁盘)启动阵列。

您将以穿孔阵列结束,其中一些原始数据可能会丢失/损坏;然而,幸运的是,大部分数据应该是可以访问的。

如果您没有备份并且所有故障磁盘都不可读,则需要联系数据救援服务。


fra*_*nus 7

  1. 无论标签上写着什么,您可能都没有软件 RAID。您不能从软件 RAID6 引导操作系统。

  2. 16 个磁盘中有 3 个同时发生故障是非常罕见的,除非您将服务器摔在地板上。要么是 3 个磁盘在很长一段时间内一个接一个地发生故障而无人注意到,要么是控制器故障、电缆故障、电源故障、背板故障或固件错误。确定您遇到的是哪种情况很重要,因为恢复策略不同。可能有可访问的 BIOS 或 RAID 控制器日志。

  3. 在任何一种情况下,您都首先使用不同的已知工作控制器备份另一个媒体上的每个磁盘。在此过程中,您将看到实际损坏的磁盘数量和数量。

  4. 大多数(可能是所有)硬件 RAID 控制器都是垃圾。我学会了艰难的方式。“磁盘故障”情况实际上可能是单个坏扇区,并且大部分(甚至全部)数据都可以恢复。

  5. “降级”数组是仍然可以访问所有数据的数组。您所描述的是“失败”或“离线”阵列,而不是“降级”。如果您在这些问题上没有经验,请打电话给 IS 的人。

  6. 从恢复/Live CD 开始可能是也可能不是该过程的一部分。如果您不知道如何以只读模式挂载文件系统,请致电知道的人。有可能通过这样的错误杀死一个完全可恢复的数据。


在无数个不眠之夜之后,我以这样一种方式设计我的服务器:当第一个磁盘出现故障时,一切都停止工作。这是唯一没有人忽略的错误消息。

  • 当然,您可以从软件 RAID 启动。Linux 机器一直这样做 - 不知道他们是怎么做的,我希望他们会作弊并将引导加载程序与 RAID 驱动程序放在镜像分区中。Linux 用户通常更喜欢软件 RAID,因为使用硬件 RAID,您不能简单地将磁盘插入其他硬件(可能有不同的控制器,或者相同的控制器,但问题是固件错误)。 (6认同)
  • 不仅可能,而且将 RAID1 用于 OS 和 RAID 5/6/10/任何用于数据的配置都是合理的配置。但是OP说的是RAID6,仅此而已。 (5认同)
  • Linux 机器从软件 RAID1(镜像)启动分区启动得非常好(Windows 机器也不例外)。这里没有太多复杂性。我可以想象一个引导加载程序知道软件 RAID 0/4/5/6,但我还没有看到。而且我不确定是否有可能在引导加载程序中正确处理降级的阵列。 (2认同)

RiG*_*iD5 5

从备份中恢复。您将不会再在此 RAID LUN 上看到您的数据。

  • 除非您正在寻找非常特别和小的东西,例如 CC 记录、与典型硬件 RAID 或 MDADM 块大小(64-256KB 等)相当的超小文件,否则您恢复的机会极低。TL;DR:@RiGiD5 给出了一些严格但仍然 100% 正确的答案。 (6认同)
  • 此外,数据恢复服务可能能够恢复数据,但成本很高。这个答案是不正确的。 (3认同)

Joe*_*Joe 2

RAID 6 只能在两个故障硬盘上幸存。如果您没有任何备份并需要数据,我建议您聘请硬盘恢复公司。我不会尝试自行恢复数据,因为您对硬盘驱动器的操作越多,数据无法恢复的可能性就越大。