RAID 5 系统是否适合更大的磁盘大小？

Question

RAID 5 系统是否适合更大的磁盘大小？

为什么普遍认为 RAID 5 系统不适合更大的磁盘大小？RAID 6 也是如此吗？

参考：http : //www.zdnet.com/article/why-raid-5-stops-working-in-2009/

Answer 1

RAID 5 对于大磁盘大小可能不可靠的原因是，从统计上讲，存储设备（即使它们正常工作）也无法避免错误。这就是所谓的 UBE（有时称为 URE），表示不可恢复的误码率，它用每读取字节数的全扇区错误来表示。对于消费类旋转硬盘驱动器，该指标通常指定为 10^-14，这意味着每读取 10^14 个字节，您将获得一个失败的扇区读取。（由于指数的工作方式，10^-14 与每 10^14 是一回事。）

10^14 字节听起来可能是一个很大的数字，但实际上只是在现代大型（例如 4-6 TB）驱动器上进行了少量完整读取。使用 RAID 5，当一个驱动器出现故障时，不存在任何冗余，这意味着任何错误都是不可纠正的：从任何其他驱动器读取任何内容的任何问题，并且控制器（无论是硬件还是软件）都不知道是什么去做。那时，您的阵列崩溃了。

RAID 6 所做的是在等式中添加第二个冗余磁盘。这意味着即使一个驱动器完全失效，RAID 6 也能够同时容忍阵列中其他驱动器之一的读取错误，并且仍能成功重建您的数据。这极大地降低了导致数据不可用的单个问题的可能性，尽管它并不能消除这种可能性；在一个驱动器发生故障的情况下，不是需要一个额外的驱动器出现问题才能使数据无法恢复，现在需要另外两个驱动器在同一扇区中出现问题才会出现问题。

当然，这个 10^-14 的数字是统计数据，就像旋转硬盘通常引用的统计AFR（年度故障率）大约为 2.5% 一样。这意味着平均驱动应该持续 20-40 年；显然不是这样。错误往往是成批发生的；您可能能够读取 10^16 或 10^17 个字节而没有任何问题，然后您会在短时间内收到数十或数百个读取错误。

通过将驱动器暴露于非常相似的工作负载和环境（温度、振动、电源杂质等），RAID 实际上使后一个问题变得更糟。由于许多 RAID 阵列是作为一个组进行调试和设置的，因此情况进一步恶化，这意味着在第一次发生故障时，阵列中的所有驱动器的活动量将非常接近相同时间。所有这些都使得相关故障更有可能发生：当一个驱动器发生故障时，很可能是其他驱动器处于边缘状态并且可能很快就会发生故障。仅仅是完整读取过程的压力加上正常的用户活动就足以将额外的驱动器推入故障。正如我们所见，使用 RAID 5，一个驱动器不起作用，任何其他地方的任何读取错误都将导致永久性错误，并且很可能会使您的阵列停止。使用 RAID 6，您至少可以在重新同步过程中为进一步的错误留出一些余量。

因为 UBE 是根据读取的字节数来表示的，并且读取的字节数往往与可以存储的字节数有很好的相关性，所以过去使用一组 100 MB 驱动器的良好设置可能是边际设置一组 1 TB 的驱动器，而使用一组 4-6 TB 的驱动器可能完全不现实，即使驱动器的物理数量保持不变。（换句话说，十个 100 MB 驱动器与十个 6 TB 驱动器。）

这就是为什么 RAID 5 通常被认为不适用于当今常见大小的阵列，并且根据特定需求，通常鼓励使用 RAID 6 或 1+0。

这甚至没有涉及RAID 不是备份的细节。