RAID 什么时候值得麻烦?

ama*_*ion 14 raid redundancy

在我们的商店中,我们在所有工作站中都忠实地使用 RAID,可能只是因为这似乎是应该这样做的方式。我说的是用于科学模拟的工作站,使用板载 RAID 芯片。

但我听过很多 RAID 的恐怖故事。Stackoverflow 本身也有过由 RAID 控制器间接造成中断

RAID 可以保护您免受非常有限的故障类型 - 物理磁盘故障 - 但同时它也引入了额外的故障点。RAID 控制器可能会出现问题,而且经常会出现问题。至少在我们的商店中,RAID 控制器的故障似乎至少与磁盘本身一样频繁。您还可以轻松地在更换故障驱动器的过程中搞砸。

RAID 什么时候值得麻烦?通过向备份解决方案添加更多冗余,您是否会获得更好的投资回报?在这方面,哪种类型的 RAID 更好或更差?

编辑:我已经改变了原来的标题“RAID 值得麻烦吗?”,所以听起来不那么消极

Ale*_*x J 17

别担心,由于群体思维,RAID 并未在整个商业世界中使用!像样的 RAID 控制器出现故障的几率远远低于磁盘出现故障的几率。我不记得在现实生活中见过 RAID 控制器出现故障,而我在办公室和数据中心见过很多磁盘死机。

PS:我看到了你的标签。RAID不是备份!:)

  • @amarillion。哇,这是一种危险的情绪。您对硬盘驱动器有多少经验?RAID 几乎需要 *2* 个 9 的可靠性(因此混合的硬盘驱动器越多),仅靠 RAID 肯定不会让您达到 5 个 9,为此您至少需要冗余数据中心. 即便如此,这也是一个废话,5 个 9 是管理幻想土地 BS,每十年的停机时间不到一个小时(约 5 分钟/年)。甚至 IP 骨干网也没有。 (9认同)
  • 不,这是关于可用性。想取下机器就可以了。有一个硬盘驱动器决定关闭您的机器不是。正确使用 RAID 可以防止这种情况发生。 (6认同)
  • @amarillion:我的一些客户让开发人员在现场收费 200 美元/小时。或者工人应对生死情况。用 80 美元的硬盘打扰那些工作人员对我来说似乎有点愚蠢,YMMV。 (4认同)
  • 不会。RAID 可以保护您免受硬盘驱动器故障的影响。它不会保护您免受 'rm -rf /' 的影响。这就是备份的用途! (3认同)

lep*_*ole 9

SUN 的ZFS(也是 OpenSolaris 的一部分;Apples OSX - 当前只读)不仅执行各种级别的 raid,而且始终检查写入磁盘的数据是否确实存在。一致性是关键!如果您不能依赖其完整性, RAID 将毫无用处。选择一个不错的 RAID 控制器(我更喜欢 HP 的)并定期清理 RAID 以发现错误。

另一方面,如果 RAID 控制器死机并且您无法获得准确的替代品,Softwareraid(作为 ZFS)会使您更加独立于硬件。


小智 8

总是。磁盘很便宜,您的信息则不然。但是使用软件 RAID,因此您可以灵活地向前移动或稍后更改硬件(相信我,您会需要它)。并且还使用像 ZFS 这样的校验和文件系统来防止静默数据损坏(现在大磁盘很可能出现这种情况)。


小智 8

对于那些说您不会使用硬件 RAID 的人,因为如果控制器出现故障并且您无法获得相同的替代品,那么您就走错了路。

  1. 如果正常运行时间对您来说很重要,那么您不应该购买便宜的硬件。如前所述,使用好的 RAID 控制器,HP、LSI、Dell 等。

  2. 如果控制器是从计算机制造商处购买的,即戴尔服务器,带有戴尔 RAID 控制器,戴尔会告诉您他们将存储这些部件多长时间,通常是在该服务器 EOL 后的 4 年以上。

  3. 如果有人快速再次运行意味着您不能等待交付,那么您应该为自己购买第二个备用控制器,无论是谁制造的。

  4. 如果您设置为 RAID 1,您有时可以将其中一个驱动器放在普通控制器上以恢复数据。如果这对您很重要,请在遇到紧急情况之前与您的控制器确认/测试。

硬件 RAID 节省了 2 倍。一旦在电子邮件服务器中,其中一个驱动器出现故障,我从那台机器上的raid 监控软件收到电子邮件警报,打电话给戴尔,第二天有一个新驱动器,将其插入并自行重建。零停机时间

第二个,在计划在 6 个月内更换的旧文件服务器中的驱动器出现故障。控制器保持运行,我们将服务器的更换移至那一周。节省了购买新驱动器的费用(因为它已过保修期)并且再次零停机。

我以前使用过软件突袭,但它们的恢复不如基于硬件的突袭那么好。您必须测试您的设置、软件或硬件,以确保其正常工作,并知道当棕色的东西碰到风扇时该怎么做。

  • 人们倾向于将 RAID 视为一种保险。如果他们没有发生“事故”,那么 RAID(保险)的好处就不会显现出来。感谢您分享您的故事,因为很多人(我认为)对 RAID 不屑一顾,因为如果他们从未有过糟糕的经历,为什么要投资于可能不会发生的事情?对于正在阅读的每个人来说,这应该是一个教训:坚固的硬件 RAID 控制器将在百万分之一的机会中拯救您的屁股。不要让它碰运气;始终使用良好的硬件 RAID 控制器,尤其是服务器。 (3认同)

Ape*_*ago 6

与台式工作站相比,服务器更容易发生硬盘驱动器故障……

你不能只说“增加更多的失败点”而不考虑失败的可能性。特别是因为这些不太可能发生的故障点专门用于破坏更有可能发生的硬盘驱动器崩溃。正如你所说的,你基本上创造了一个类似帕斯卡赌注的谬论。

台式机主板上的大多数 RAID 系统都是廉价的软件/硬件混合体,大部分工作在其软件驱动程序中完成。恕我直言,它们是用来卖给高级用户的废话。

另一方面,一个好的实际硬件 RAID 是相当可靠的,并且它有硬件来完成它的工作(尽管?)没有操作系统。但是那些变得昂贵,因为真正的硬件通常有备用电池,以及一个完整的 XOR'ing 阵列来计算校验和等。如果使用 SCSI 完成,则更昂贵。

总结:如果您正在运行基于主板的 RAID 系统,那么不,这不值得麻烦。

  • 一位同事经营着一个拥有 180,000 个工作站和一流帮助台的大型学校 IT 环境。7% 的台式机需要在 5 年生命周期内更换硬件,其中 85% 的更换是硬盘。 (3认同)

duf*_*703 5

尽管备份和 RAID 是不同问题的解决方案,但大多数“RAID 问题”与最常见的备份问题(即没有人测试恢复)非常相似——没有人测试系统恢复。其他 RAID 问题通常是人们不了解它做什么和不做什么的直接结果。例如,许多人认为 RAID 可以保证其数据的完整性——但事实并非如此。

对于工作站,如果您使用 RAID-0 来提高 IO 密集型应用程序的性能,或者使用 RAID-1/5/6 以在她的 80 美元硬盘出现故障时保持 100 美元/小时的科学家工作,那么您正在适当地使用 RAID。只是不要将磁盘冗余备份混淆,并已测试程序到位以确保您的 IT 人员处理恢复。