SW SSD Raid 1 over HW RAID 10

Jas*_*son 6 hardware raid hard-drive ssd software-raid

供应商(数据中心)建议我在带有机械驱动器的硬件 RAID 10 上的软件 RAID 1 中使用 1TB SSD。

他们的报价:

通常 SSD 比 RAID 卡最可靠,而且由于部件较少,故障点也较少。由于 RAID1 是极其简单的存储,因此不会有太多 CPU 负载。

这有多真实?在运行虚拟机时,RAID 1 SW 甚至是理想的选择吗?他们是这么说的。

更多细节: 我计划运行 XEN/XEN-HvM/KVM —— 换句话说,它将 Linux 作为主机运行,我想要一个设置,来宾可以将 Windows 托管到 Linux 并可以编译他们自己的内核。

我想要完成的是: 能够快速识别驱动器故障并在几乎没有停机时间或性能下降的情况下更换。

eww*_*ite 10

这取决于驱动器、磁盘控制器、SSD 类型、RAID 实施、所涉及的操作系统、服务器、监控能力、您是否可以带外访问服务器等。

编辑:您将使用 Linux + KVM。

  • 设想一个硬件 RAID 解决方案的驱动器故障,该解决方案取出一个磁盘。您会收到警报并热插拔驱动器。简单。

  • 想象一下软件 RAID SSD 驱动器故障未被检测到(没有显式监控)并且需要停机或可能更多涉及修复过程。

  • 没有什么可以阻止您将 SSD 与硬件 RAID 一起使用,对吗?

但这一切都取决于...

如果您需要 SSD 性能,我会推动具有硬件 RAID 的 SSD。我不一定要从软件 RAID 启动,但这是您的选择。对于虚拟化,您可能会混合使用随机读/写活动。硬件 RAID 的缓存可能会有所帮助。不过,如果这是一个数据中心,您可能不必担心突然断电。


Dav*_*ett 3

在 RAID10 中,任何一个驱动器都可能发生故障,而阵列将继续存在,与 RAID1 相同。虽然 RAID10 可以承受六个“两个驱动器同时发生故障”情况中的四个,但使用具有四个驱动器的 R10 而不是具有两个驱动器的 R1 的主要原因是性能而不是额外的可靠性,并且 SSD 将为您带来更大的性能飞跃。

早期的 SSD 存在可靠性问题,但我见过的大多数正确运行的测试表明,那些日子早已一去不复返了,它们往往不会比旋转金属驱动器更容易出现故障 - 整体可靠性已经提高,磨损均衡技巧也变得非常有用。聪明的。

当运行虚拟机时,RAID 1 SW 是否更理想?

我假设您正在主机上运行 RAID 阵列,在这种情况下,除非您的虚拟机中有特定的负载模式(这在直接物理硬件上也是一个问题),否则软 RAID 和硬 RAID 之间的差异不会消失依赖于虚拟机的使用。如果您在虚拟机内运行 RAID,那么您可能会做错什么(当然,除非虚拟机用于学习或测试 RAID 管理)。

硬件 RAID 的主要优点是:

  • 多路写入带来的潜在速度提升:软件 RAID1 可能会依次写入每个驱动器,而使用硬件 RAID1,操作系统仅写入一次,硬件并行写入两个驱动器。理论上,这可以使您的峰值批量传输速率加倍(尽管实际上差异可能远小于此),但对随机写入影响很小或没有差异(对于旋转金属,主要瓶颈是磁头移动,而对于 SSD,主要瓶颈是磁头移动)。瓶颈是即使是小写入也需要写入更大的块,以及如果没有准备好的块则需要清除块的时间)。
  • 通过电池备份(或固态)缓存实现安全性(尽管这仅适用于高规格控制器),允许在控制器上安全地进行缓存,因为即使在突然断电的情况下,控制器也可以维护未命中的写入块驱动器尚未恢复并在电源恢复时写入它们。
  • 更有可能支持热插拔(尽管您的 DC 套件可能更普遍地支持热插拔,因此它也可能适用于 SW RAID)。

良好的软件 RAID(即 Linux 的 mdadm 管理阵列)的主要优点是:

  • 您的阵列永远不会锁定到给定的控制器(或更糟糕的是,给定控制器的特定版本),这意味着如果所有其他硬件都出现故障但它们仍然存在,您的阵列可以移动到新套件。我用它来保存主板坏掉的文件服务器:我们只是将驱动器移植到一个新盒子中,一切都恢复了,无需手动干预(我们确实根据最近的备份验证了驱动器并尽快更换它们,在在这种情况下,死亡是一个电源问题,它影响了驱动器,但并没有立即杀死驱动器,但这种简单的移植意味着我们大大减少了维护窗口之外的停机时间)。当然,如果您的 DC 备有充足的备件,那么这就不是什么问题了。

关于 SSD 可靠性和性能:

SSD 过度配置空间有两个原因:如果某个块损坏,它会留下大量可用的块来重新映射(传统驱动器也会这样做),并且它会阻止写入性能漏洞(巨大的写入重负载除外),即使在 TRIM 所在的情况下也是如此不被使用,因为额外的块可以与所有其他块一起在磨损均衡池中循环(并且控制器可以预先擦除它们以准备下次空闲时使用)。消费级驱动器的分配不足仅足以用于重新映射使用和少量的性能保护,因此手动分配不足(例如仅对 240GB 驱动器的 200GiB 进行分区)很有用,这具有类似的效果。有关详细信息,请参阅此类报告(该报告由控制器制造商发布,但似乎是对此事的一般描述,而不是销售宣传,如果您寻找,您无疑会找到关于同一主题的制造商中立报告他们)。企业级驱动器往往会过度配置(出于上述两个原因:可靠性和性能)。