我们将在新服务器上运行 CentOS 7。我们在服务器内部的 raid6 中有 6 个 300GB 驱动器。(存储主要以 40TB RAID 盒的形式在外部存储。)如果格式化为单个卷,则内部卷大约为 1.3TB。我们的系统管理员认为将操作系统安装在一个 1.3TB 的大分区上是一个非常糟糕的主意。
我是生物学家。我们不断安装新软件来运行和测试,其中大部分都在 /usr/local 中。然而,因为我们有大约 12 位不精通计算机的生物学家在使用该系统,所以我们也在 /home 中收集了很多数据。我们的最后一个服务器有一个 200GB 的 / 分区,2.5 年后它已满 90%。我不希望这种情况再次发生,但我也不想违背专家的建议!
我们如何才能最好地使用 1.3TB 可用空间来确保空间在需要的时间和地点可用,但又不会为系统管理员带来维护噩梦?
只是好奇,我的新服务器有 6 x 1TB 7200RPM Near Line SAS。我可以将其配置为 RAID5+1 Hot Spare 或 RAID6。
我应该选择什么?
为什么嵌套 RAID 级别 1+5 或 1+6 几乎闻所未闻?该嵌套的RAID级别维基百科的文章,目前缺少的部分。我不明白为什么它们并不比 RAID 1+0 更常见,尤其是与 RAID 1+0 三重镜像相比时。
很明显,重建时间变得越来越成问题,因为驱动器容量的增长速度快于其性能或可靠性。有人告诉我 RAID 1 重建速度更快,RAID 1 对的 RAID 0 阵列可以避免这个问题,但 RAID 5 或 6 RAID 1 对阵列肯定也会如此。我至少希望它们成为 RAID 1+0 的常见替代方案。
对于 16 个 1TB 驱动器,以下是我对求助于备份的天真概率的计算,即简化假设,即驱动器以偶数概率独立:
RAID | storage | cumulative probabilities of resorting to backup /m
1+0 | 8TB | 0, 67, 200, 385, 590, 776, 910, 980, 1000, 1000, 1000
1+5 | 7TB | 0, 0, 0, 15, 77, 217, 441, 702, 910, 1000, 1000 …
Run Code Online (Sandbox Code Playgroud) 维基百科说“RAID 2 是唯一的标准 RAID 级别,除了 RAID 6 的一些实现,它可以从数据的单个位损坏中自动恢复准确的数据。”
有谁知道 Linux 中的 RAID 6 mdadm 实现是否是这样一种实现,它可以自动检测单比特数据损坏并从中恢复。如果 CentOS / Red Hat 6 与其他版本不同,则这适用于 CentOS / Red Hat 6。我尝试在网上搜索,但运气不佳。
由于 SATA 错误率为 1/1E14 位,以及包含 1.6E13 位的 2TB SATA 磁盘,这对于防止数据损坏尤其重要。
编辑 2015 年 6 月 17 日
我相信这不是我最初认为的问题 - 请参阅硬盘 / SSD - 错误的检测和处理 - 是否可靠地防止了静默数据损坏?更多细节
假设您有两个 RAID 阵列,一个有 N 个磁盘,另一个有 N+1 个磁盘。具有 N 个磁盘的阵列被格式化为RAID\xc2\xa05并保持不变,而另一个阵列在其中一个磁盘被移除之前被格式化为RAID\xc2\xa06 。现在,两个阵列都有 N 个磁盘,N-1 个磁盘的可用存储空间,并且可以在丢失一个(多个)磁盘的情况下幸存下来。
\n除了 RAID 控制器使用的任何元数据之外,这两个阵列之间是否有任何差异(在数据布局、性能和可靠性方面)?我能否将缺少一个磁盘的 RAID\xc2\xa06 阵列转换为一个较少预期磁盘的 RAID\xc2\xa05,并尽可能减少“重塑”/“重写”?
\n我知道 RAID 5 和 RAID 6 中有不同的“策略”/“对齐”,但这可能超出了这个问题的范围。也许应该假设两个阵列都使用两个 RAID 级别通用的策略。
\n我在 Supermicro JBOD 机箱中拥有一个 10 磁盘 (16 TB) RAID-6 阵列 (AVAGO MegaRAID SAS 9380-8e)。控制器今天开始发出蜂鸣声,并且一个磁盘呈红色/蓝色闪烁。进入AVAGO控制软件,其中9块磁盘显示“Online”,其中1块磁盘显示“Rebuild”,进度为20%。
我的问题是:磁盘正在重建是什么意思?我预计在重建任何内容之前我必须交换故障磁盘。
感谢您的帮助!格雷戈尔
我目前在 RAID5 阵列中有一个带有 3 个 1.5TB 磁盘的文件服务器。由于它已经快满了,我得到了三个额外的磁盘(每个也是 1.5TB)。
现在我想切换到 RAID6,因为 6TB 空间已经足够了,我想拥有 RAID6 更高的安全性。虽然我确实有完整备份——即我可以简单地创建一个新阵列并恢复备份——但我更喜欢切换而不必恢复备份。这是可能的,如果是,如何?
今天,我们遇到了某种最坏的情况,并对任何类型的好主意持开放态度。
这是我们的问题:
我们正在使用多个专用存储服务器来托管我们的虚拟机。在我继续之前,这里是规格:
我们配置了一个 RAID6 集,其中包含 10 个磁盘,其中包含一个逻辑卷。我们在系统中有两个热备件。
今天一个硬盘坏了。这种情况时有发生,所以我们更换了它。重建第二张光盘失败。通常这并不好玩。我们停止了繁重的 IO 操作以确保稳定的 RAID 重建。
遗憾的是,热备盘在重建时失败了,整个过程停止了。
现在我们有以下情况:
这是一个RAID 6系统,两块磁盘故障,所以数据必须完好无损,但我们不能再次使卷联机访问数据。
在搜索时,我们发现了以下线索。不知道是好是坏:
将所有光盘镜像到第二组驱动器。因此,我们将有可能尝试不同的事情,而不会失去比我们已有的更多。
尝试在 R-Studio 中重建阵列。但是我们对软件没有真正的经验。
拉出所有驱动器,重新启动系统,更改为 areca 控制器 bios,逐个重新插入 HDD。有人说是通过这个使系统上线的。有人说效果为零。有人说,他们搞砸了整个事情。
使用未记录的槟榔命令,如“rescue”或“LeVel2ReScUe”。
联系计算机取证服务。但是哇...通过电话的初步估计超过了 20.000 欧元。这就是为什么我们会亲切地寻求帮助。也许我们错过了显而易见的事情?
是的,当然,我们有备份。但是有些系统丢失了一周的数据,这就是我们希望让系统重新启动并运行的原因。
非常欢迎任何帮助、建议和问题。
// 底部的简短更新
// 另一个更新在底部附近以回复建议的编辑
所以,一开始我有这个想法:找一个虚拟驱动程序在windows上设置和使用软件raid。结果:即使有开发人员的支持也失败。
在观看了有关虚拟化的 YouTube 视频后,我想到了下一个想法:为运行裸机的 linux 系统安装第二个相当便宜的 gpu,并通过直通在我的主 gpu 的 VM 中设置我的窗口。通过这种方式,我可以使用 mdadm/lvm 并让 linux 完成所有软件突袭任务。结果:失败 - 由于我的主板的一些奇怪问题根本不喜欢第二个 gpu。
然后我阅读了一些关于 Windows 存储空间的内容,并且它能够提供与软件 RAID6 相当的容错(据我所知,它是通过分布在物理驱动器上的文件系统卷影副本完成的)。所以我试了一下,让它运行起来(尽管它需要在 powershell 中手动输入一些行,因为 gui 版本没有公开一些高级设置)。
由于这只是在虚拟机中,测试性能相当糟糕,但我注意到数据被多次写入,有时最终会导致驱动器使用不均匀。例如:其中一个虚拟磁盘仅写入了大约 2GB,而另一个驱动器写入了大约 4GB。因此,无论使用什么分发算法(它看起来不像循环,而是更像是大多数可用的物理空间),它与我期望的软件 RAID6 的行为方式相去甚远。
我还注意到使用物理磁盘空间相当浪费。我的测试是使用 8 个磁盘,每个磁盘 50GB。一个 mdadm 软件 RAID6 导致大约 300GB 的可用空间不足,存储空间只有大约 250GB - 所以另外 15% 的“惩罚”。好吧,我想这就是所有的开销等等,但即使是从软件 RAID 中,我也希望能更好地利用我的物理磁盘空间。
然后我测试了如果我开始移除驱动器会发生什么,并且当我使用 -PhysicalDiskRedundancy 2 设置它时,它能够存活下来并且所有测试数据仍然可用。
因此,总体而言,它似乎符合我对支持类似 raid6 的容错能力的 windows 上的软件突袭的需求,以在双重故障中幸存下来(即:在重建第一个失败的驱动器的同时使第二个驱动器失败)。关于性能:嗯,这是软件突袭 - 由于我目前正在使用 fakeRAID(基本上是由 bios 遮蔽的特定于驱动程序的软件突袭),因此不会像我现在那样对系统性能产生更大的影响。
真正让我三思的原因是:目前有两个主要问题:a) 无法安装在 linux 系统上(我还没有测试它是否以及如何安装在恢复环境中)和 b)在当前的 win10 2004 中,有很多问题已经导致数据丢失,正如一些用户在不同论坛上报告的那样。
我为什么要问这个:主要的“问题”是我目前没有投资新/更好硬件的财务选择。我只需要保留我目前拥有的东西。因此,我正在寻找软件解决方案。我尝试了 WinBTRFS,因为它声称支持其卷的软件 RAID,但即使在其开发人员的帮助下,我也无法正确设置它。因此,基本问题归结为:如果无法负担硬件 RAID 或虚拟化等其他解决方案(由于硬件不兼容),使用存储空间是否是一种可行的选择?当然,我有许多“非常重要”的数据备份在外部驱动器上,但仍然:我宁愿构建一些可靠的系统,而不是“我相信不会发生任何事情”的方式。 …
我的网络上有一个测试 RAID 控制器,它承载一个非常大的 RAID 6(11 个驱动器,每个 3TB)。其中一个驱动器出现故障,现在正在重建阵列。按照这个速度,我认为大约需要 3 天才能完成。如果我将新数据写入阵列,是否会降低成功重建的机会?
我可能会以大量小文件的形式写入大约 1 GB 的新数据。这会大大延迟重建的进度吗?