为什么 RAID 1+6 不是更常见的布局?

Jam*_*igh 18 raid raid1 raid6

为什么嵌套 RAID 级别 1+5 或 1+6 几乎闻所未闻?该嵌套的RAID级别维基百科的文章,目前缺少的部分。我不明白为什么它们并不比 RAID 1+0 更常见,尤其是与 RAID 1+0 三重镜像相比时。

很明显,重建时间变得越来越成问题,因为驱动器容量的增长速度快于其性能或可靠性。有人告诉我 RAID 1 重建速度更快,RAID 1 对的 RAID 0 阵列可以避免这个问题,但 RAID 5 或 6 RAID 1 对阵列肯定也会如此。我至少希望它们成为 RAID 1+0 的常见替代方案。

对于 16 个 1TB 驱动器,以下是我对求助于备份的天真概率的计算,即简化假设,即驱动器以偶数概率独立:

RAID | storage | cumulative probabilities of resorting to backup /m
 1+0 |     8TB | 0, 67, 200, 385, 590, 776, 910, 980, 1000, 1000, 1000
 1+5 |     7TB | 0,  0,   0,  15,  77, 217, 441, 702,  910, 1000, 1000
 1+6 |     6TB | 0,  0,   0,   0,   0,   7,  49, 179,  441,  776, 1000
(m = 0.001, i.e. milli.)
Run Code Online (Sandbox Code Playgroud)

如果这是正确的,那么很明显 RAID 1+6 比 RAID 1+0 更加可靠,仅减少了 25% 的存储容量。与一般情况一样,理论写入吞吐量(不计算寻道时间)是存储容量 / 阵列大小 × 驱动器数量 × 阵列中最慢驱动器的写入吞吐量(具有冗余的 RAID 级别对写入具有更高的写入放大)不填充条带,但这取决于块大小),并且理论读取吞吐量是阵列中驱动器的读取吞吐量之和(除了 RAID 0、RAID 5 和 RAID 6 理论上仍然可以由分别是最慢、第二慢和第三慢的驱动器读取吞吐量)。即,假设相同的驱动器,分别为 8×、7×、

此外,考虑RAID 1 三元组的 RAID 0四元组,即 12 个驱动器的 RAID 1+0 三重镜像,以及 RAID 1 对的 RAID 6 六元组,即 12 个驱动器的 RAID 1+6。同样,这些是相同的 1TB 驱动器。两种布局具有相同的驱动器数量 (12)、相同的存储容量 (4TB)、相同的冗余比例 (2/3)、相同的最大写入吞吐量 (4x) 和相同的最大读取吞吐量 ( 12×)。这是我的计算(到目前为止):

RAID      | cumulative probabilities of resorting to backup /m
1+0 (4×3) | 0, 0, 18,  ?,   ?,   ?,   ?,   ?, 1000
1+6 (6×2) | 0, 0,  0,  0,   0,  22, 152, 515, 1000
Run Code Online (Sandbox Code Playgroud)

是的,这可能看起来有点矫枉过正,但是在使用三重镜像来拆分克隆以进行备份时,也可以使用 RAID 1+6,只需冻结和移除除 2 个 RAID 之外的所有驱动器的每个驱动器中的 1 个1 对,在这样做的同时,它在降级时仍然比降级的 RAID 1+0 阵列具有更好的可靠性。以下是我对以这种方式降级 4 的 12 个驱动器的计算:

RAID      | cumulative probabilities of resorting to backup /m
1+0 (4×3) | (0, 0, 0, 0), 0, 143, 429, 771, 1000
1+6 (6×2) | (0, 0, 0, 0), 0,   0,  71, 414, 1000
Run Code Online (Sandbox Code Playgroud)

但是,在此期间,RAID 1+6 的读取吞吐量可能会降低至 6 倍,而 RAID 1+0 仅会降低至 8 倍。然而,如果在阵列处于这种降级状态时驱动器出现故障,RAID 1+6 阵列将有 50–50 的机会保持在大约 6 倍或进一步限制为 5 倍,而 RAID 1+0 阵列将有被限制到4 倍的瓶颈。写入吞吐量应该不受影响(如果用于备份的驱动器是限制性最慢的驱动器,它甚至可能会增加)。

事实上,两者都可以看作是“三重镜像”,因为降级的 RAID 1+6 阵列能够分离出额外的 RAID 6 组 4 个驱动器。换句话说,这个 12 驱动器的 RAID 1+6 布局可以分为 3 个降级(但功能正常)的 RAID 6 阵列!

那么是不是大多数人没有详细研究数学?将来我们会看到更多的 RAID 1+6 吗?

Sha*_*den 17

一般来说,我会说 RAID 1+0 比 1+5 或 1+6 使用更广泛,因为 RAID 1+0足够可靠并且提供稍微更好的性能和更多可用的存储。

我认为大多数人会将 RAID 1+0 组中完整 RAID 1 对的失败视为非常罕见的事件,值得打破备份 - 并且可能不太热衷于获得低于 50% 的物理磁盘作为可用空间。

如果您需要比 RAID 1+0 更高的可靠性,那就去吧!..但大多数人可能不需要那个。

  • @JamesHaigh RAID 6 vs RAID 1+0 与 RAID 1+6 vs RAID 1+0 的讨论大不相同,你有点改变了主题。ZFS 的 raidz3 似乎适合您?无论如何,就您而言,RAID 1+0 比 RAID 6 保持了一些性能优势,例如需要接触少得多的驱动器的小型单块写入(回到 raidz3,ZFS 通过写入多个驱动器来智能地处理此问题)完整副本而不是写入所有磁盘以进行小写) (4认同)
  • RAID 6 不能线性扩展,因为它不能那样工作。第二奇偶校验的综合症计算不会轻易扩展到第三方。但是你可以很容易地做更小的 RAID 6 组——你没有真正的理由需要做 14+2,而是可以做 2+2 或 4+2 并获得很多可靠性。 (3认同)

eww*_*ite 16

实际的答案在于硬件 RAID 控制器规格、平均磁盘大小、驱动器外形和服务器设计的交叉点。

大多数硬件 RAID 控制器都受到它们支持的 RAID 级别的限制。以下是 HP ProLiant Smart Array 控制器的 RAID 选项:

[raid=0|1|1adm|1+0|1+0adm|5|50|6|60]
Run Code Online (Sandbox Code Playgroud)

注意:“adm”只是三重镜像

LSI RAID 控制器支持: 0, 1, 5, 6, 10, 50, and 60

所以这些控制器只能作为嵌套级别的 RAID 50 和 60。LSI(原Dell PERC)和 HP 占据了企业服务器存储适配器市场的大部分。这就是您在现场看不到 RAID 1+6 或 RAID 61 之类的东西的主要原因。

除此之外,超过 RAID 10 的嵌套 RAID 级别需要相对大量的磁盘。鉴于当今可用的驱动器容量不断增加(使用 3.5" 近线 SAS 和 SATA 驱动器),加上许多服务器机箱围绕 8 x 2.5" 驱动器笼设计的事实,没有太多机会物理配置 RAID 1+ 6 或 RAID 61。

您可能会看到类似 RAID 1+6 的区域是大型机箱软件 RAID 解决方案。Linux MD RAID 或 ZFS 绝对有能力。但到那时,热或冷备用磁盘可以缓解驱动器故障。RAID 可靠性现在不是什么大问题,只要您避免有害的 RAID 级别和硬件组合(例如 RAID 5 和 6TB 磁盘)。此外,读写性能将通过分层和缓存层进行抽象。平均存储工作负载通常受益于其中之一。

所以最后,似乎需求/需求并不存在。


Sob*_*que 12

  • 您的可靠性收益递减。即使在 10^14 UBER 速率中的 1 个令人讨厌的 SATA 驱动器上,RAID 6 也不太可能复合故障。在 FC/SAS 驱动器上,您的 UBER 是 10^16 中的 1 个,并且您也获得了更高的性能。

  • RAID 组可靠性并不能保护您免受意外删除。(所以你无论如何都需要备份)

  • 超过一定的 RAID 级别,您在磁盘上发生复合故障的几率将低于支持基础设施(电源、网络、空调泄漏等)的复合故障。

  • 写惩罚。RAID 61 上的每个传入写入都将触发 12 个 IO 操作(天真地完成)。就每 TB 随机写入的 IOP 而言,RAID 6 在“低层”场景中已经很痛苦了。(并且在更高级别,您的失败率无论如何要好 100 倍)

  • 这不是“减少 25%”,而是进一步减少 25%。您的 16TB 正在变成 6TB。因此,您将获得 37.5% 的可用存储空间。每个容量需要 3 倍的磁盘,以及 3 倍的数据中心空间。通过简单地制作较小的 RAID6 集,您可能会获得更高的可靠性。我还没有做过数字运算,但尝试过 - 例如 3x 3+2 组中 RAID 6 的总和(15 个驱动器,比 RAID10 更少的存储开销)。或者做 3 路镜子代替。

话虽如此 - 对于多站点灾难恢复,它比您想象的更常见。我运行复制的存储阵列,其中我有 RAID5/6/DP RAID 组异步或同步到 DR 站点。(如果可以避免,请不要进行同步 - 看起来不错,但实际上很糟糕)。

对于我的 NetApps,这是一个带有一些镜像聚合的 Metrocluster。对于我的 VMAX,我们拥有 Symmetrix 远程数据设施 (SRDF)。我的 3PAR 进行远程复制。

它很昂贵,但提供了“数据中心着火”级别的灾难恢复。

关于三重镜像 - 我使用过它们,但不是作为直接的 RAID 弹性措施,而是作为备份策略的一部分的完整克隆。同步第三个镜像,将其拆分,将其安装在单独的服务器上,然后使用完全不同的基础架构进行备份。有时旋转第三个镜子作为恢复选项。

我想说明的一点是,根据我作为存储管理员的直接经验 - 在大约 40,000 个主轴空间中(是的,我们每天更换数十个驱动器) - 我们不得不去备份各种过去 5 年的原因,但没有一个是 RAID 组故障。我们确实讨论了相对优点和可接受的恢复时间、恢复点和中断窗口。而支撑所有这一切的始终是额外弹性的成本。

我们的阵列所有介质擦洗和故障预测,并积极备用和测试驱动器。

即使有合适的 RAID 实施,成本效益也不存在。花在存储空间上的钱最好投资于更长的保留或更频繁的备份周期。或者更快的通讯。或者只是通常更快的主轴,因为即使具有相同的弹性数字,更快地重建备件也会提高您的复合故障概率。

所以我想我会因此提供你的问题的答案:

您不会经常看到 RAID 1+6 和 1+5,因为成本收益根本无法叠加。如果资金有限,并且首先需要实施备份解决方案,那么您所做的就是花钱减少停机频率。有更好的方法来花这笔钱。