RAID5 阵列问题 - 先复制数据或更换驱动器

Phi*_*hil 1 raid storage data-recovery hardware-raid raid5

我继承了一个危急情况如下。

  • 2 x 16 磁盘 RAID5 存储系统(一个保存主数据,一个保存备份)
  • 备份系统没有监控,两个磁盘出现故障,所以所有数据都丢失了——不是一个大问题
  • 主系统显示 2 个磁盘有媒体错误,一个稳定在 30 左右,另一个稳定在 2,000 左右,但增长缓慢(一周左右后为 2,100)

有使用更好的存储、使用热备件、实施更好的监控、设置镜像、备份等的长期计划,但当前的需要是保护主数据,因为它对业务至关重要,但坐在有两个磁盘的 RAID5 阵列上,显示错误

我们基本上将选项归结为以下选项之一

选项1

  • 换出有 2,000 个媒体错误的磁盘,让 RAID5 阵列重建
  • 完成后,换出另一个有媒体错误的磁盘

对此的主要担忧是,在重建阵列时(24-48 小时?),系统中的冗余为零,任何磁盘故障都意味着丢失所有数据。

选项 2

  • 保持 RAID5 阵列不变,并将数据复制到新的存储阵列

主要担心的是,它比 RAID 重建花费的时间长很多倍,因为文件系统有成百上千的小文件,因此复制可能需要近一个月的时间才能完成,而不会影响正在使用这些文件的站点

我很想知道你会采取哪种方法以及为什么?这种级别的媒体错误是否令人担忧?媒体错误的增长水平是否令人担忧?

Bar*_*rim 6

是的,我会担心,鉴于您的情况,我会安装另一个系统并尽快进行备份,因为任何重建尝试都很容易导致丢失所有内容。

RAID 5 的有趣之处在于,您可能在另一个驱动器上有一个 URE 当前显示正常,因此即使您认为可以工作的磁盘,也不是。因此,您的“重建错误”。

建立一个系统来复制您的数据并尽快开始备份这些文件。然后担心重建服务器。

...虽然就个人而言,一旦备份到位并知道它很好,我会将您的服务器完全更改为带有 RAID 10 或 6 的服务器,重新开始...

  • 听起来已经有两个具有已知 URE 的驱动器 - 因此重建很可能会失败。尽快备份它! (2认同)
  • 已知的问题令人担忧,但未知的问题会让您哭泣。 (2认同)