这听起来像是一个奇怪的问题,但它引起了我与一些同事的热烈讨论。考虑一个由八个或十二个磁盘组成的中等大小的 RAID 阵列。在购买第一批磁盘,或购买替换磁盘以扩大阵列或更新硬件时,可以采用两种广泛的方法:
显然有一些中间立场,但这些是主要的对立心态。我一直很好奇哪种方法在降低阵列灾难性故障的风险方面更明智。(让我们定义为“25% 的磁盘在等于重新同步阵列一次所需的时间窗口内发生故障。”)逻辑是,如果所有磁盘来自同一个地方,它们可能都具有相同的潜在的缺陷等待打击。如果你愿意,同样的定时炸弹与时钟上的相同初始倒计时。
我为每种方法收集了一些更常见的优缺点,但其中一些感觉像是猜测和直觉,而不是基于确凿证据的数据。
如果我们仅按要点计数,“批量购买”显然会获胜。但是一些优点很弱,而一些缺点很强。许多要点只是简单地说明了其他一些要点的逻辑逆。其中一些事情可能是荒谬的迷信。但是,如果迷信在维护阵列完整性方面做得更好,我想我会愿意接受它。
哪一组在这里最明智?
更新:我有与此讨论相关的数据。我个人构建的最后一个阵列(大约四年前)有八个磁盘。我从一个供应商处订购,但将购买分成两个订单,每个订单四个磁盘,相隔大约一个月。阵列的一个磁盘在运行的最初几个小时内发生故障。它来自第一批,并且该订单的退货窗口在所有东西都旋转起来的时间内已经关闭。
四年后,七个原始磁盘加上一个替换磁盘仍然没有错误地运行。(敲木头。)
我想构建一个存储服务器并购买了10 x 2TB WD RED's. 在HDD's刚刚抵达。
在将真实数据复制到磁盘之前,你们有没有什么工具可以用来检查坏驱动器或最好地防止婴儿死亡?
是检查每个单个HDD还是ZFS raid-z2通过复制大量数据来测试数组()更好?
我们有一台运行 CentOS 的 Dell PowerEdge T410 服务器,其 RAID-5 阵列包含 5 个希捷 Barracuda 3 TB SATA 磁盘。昨天系统崩溃了(我不知道具体是怎么回事,也没有任何日志)。
启动到 RAID 控制器 BIOS 后,我看到在 5 个磁盘中,磁盘 1 标记为“丢失”,磁盘 3 标记为“降级”。我强制备份磁盘 3,并用新硬盘驱动器(相同大小)替换磁盘 1。BIOS 检测到这一点并开始重建磁盘 1 - 但是它卡在了 %1。旋转进度指示器整晚都没有移动;完全冻结。
我在这里有哪些选择?除了使用一些专业的数据恢复服务,还有什么方法可以尝试重建?两个硬盘怎么会同时出现故障?似乎过于巧合。是否有可能是磁盘 1 发生故障,从而导致磁盘 3“不同步”?如果是这样,是否有任何实用程序可以用来“同步”恢复它?