我们有一个 16 驱动器 RAID-6,其中包含三个有问题的驱动器。其中两个已经死亡,第三个正在发出 SMART 警告。(别管它是如何变得如此糟糕的状态。)
显然,我们希望在仍在工作的驱动器之前更换死驱动器,但最好是:
更换一个死驱动器,让RAID重建,然后更换另一个,让它再次重建;或者
一次更换两个驱动器并让它并行重建?
换句话说,我们是否会通过重新引入一两个驱动器来更快地恢复到冗余状态?并行重建两个驱动器会减慢重建过程吗?
如果重要,控制器是 3ware 9650SE-16ML。
我们有一台 Debian 服务器,带有 3Ware 9650SE 8 驱动器 RAID 控制器,带有 5 个磁盘 RAID6 阵列,充当虚拟机主机,全部为 Linux。问题不断发生,我怀疑未检测到损坏的磁盘。
我们现在有几次崩溃,主机和所有客人都说 IO 系统阻塞了 120 秒或更长时间。我们怀疑 RAID 控制器有问题,但我们将其更换为具有相同固件的相同控制器,但没有修复。我不认为它会,因为第二个 RAID1 阵列保持正常工作。
大约一周前(周日),当这种情况发生时,自动验证为 66%。昨晚(星期五早上)是 67%。在启动之前和之后,以及在遇到问题时。当我用 关闭验证时tw_cli /c0/u0 stop verify
,事情又变得响应了。
我怀疑它卡在大约 66% 的磁盘故障上。周六开始自动验证:
# tw_cli /c0 show verify
/c0 basic verify weekly preferred start: Saturday, 12:00AM
Run Code Online (Sandbox Code Playgroud)
并且通常会在周五之前完成。看到周日是 66%,周五是 67%,这不太可能是巧合。
所有驱动器上的“smartctl -a -d 3ware,0 /dev/twa0”和“smartctl -t long”(长时间的智能自检)都没有显示任何错误。也不行tw_cli /c0 show alarms
。
我怀疑磁盘以难以检测的方式损坏,但我将每个驱动器一个一个地从阵列中取出,从中创建了一个“单个”阵列,并添加了完整的零。没有磁盘显示错误。
或者有什么其他建议?
编辑:
这是布局:
# tw_cli /c0 show
Unit UnitType Status %RCmpl %V/I/M Stripe Size(GB) Cache AVrfy …
Run Code Online (Sandbox Code Playgroud) 我在 3ware 9650SE-16ML 卡上有一个糟糕的 RAID 阵列。我不知道是我刚刚遇到了双磁盘故障(糟糕!)还是我读错了。的相关输出/c0 show all
是:
Port Status Unit Size Blocks Serial
---------------------------------------------------------------
p0 DEGRADED u0 931.51 GB 1953525168 5QJ07MAH
p1 ECC-ERROR u0 931.51 GB 1953525168 5QJ0DCW9
p2 OK u0 931.51 GB 1953525168 5QJ0DW9C
p3 OK u0 931.51 GB 1953525168 5QJ0CKXJ
Run Code Online (Sandbox Code Playgroud)
失败是(来自show alarms
):
Ctl Date Severity Alarm Message
------------------------------------------------------------------------------
c0 [Sun Nov 20 07:47:23 2011] INFO Rebuild started: unit=0
c0 [Sun Nov 20 08:20:12 2011] ERROR Drive ECC error reported: port=1, unit=0
c0 [Sun …
Run Code Online (Sandbox Code Playgroud) 我们有一个用于备份存储的 Rackable Systems 服务器。最近我们购买了几个 3TB 驱动器来扩展存储,但根据 3ware 的 tw_cli 实用程序和 3ware 卡的 BIOS 报告,它们仅显示 746.52 GB 的容量。我一直在搜索,但找不到列出该卡支持的最大单个驱动器容量的规格表。我也无法弄清楚为什么驱动器显示 746.52 GB 而不是 2 TB,如果实际上已经达到了 2TB 兼容性障碍。
存储控制器:3ware 9500S-4LP(固件:FE9X 2.08.00.009)
两个新硬盘:Seagate SV35 ST3000VX000 3TB硬盘。
新驱动器是否太大?
为什么 3TB 驱动器报告小于 1TB 驱动器(列为 931.51 GB)?
tw_cli 的输出:
/c1 show
Unit UnitType Status %RCmpl %V/I/M Stripe Size(GB) Cache AVrfy
------------------------------------------------------------------------------
u0 SINGLE OK - - - 372.519 OFF OFF
u1 SINGLE OK - - - 931.312 OFF OFF
u2 RAID-1 OK - - - 745.048 …
Run Code Online (Sandbox Code Playgroud) 我有一个 3ware 9550SXU-12 存储控制器和连接到它的 750G 磁盘。磁盘被配置为单个单元(不是 JBOD)。
我一直在运行一些性能测试,主要是看分区对齐、加密、raid级别等对读/写/iops性能的影响。
我很惊讶在我的情况下,对齐分区的相同存储配置的读/写性能比未对齐的分区略低。
这促使我开始检查通过 3ware 控制器连接时磁盘对操作系统的可见性和使用主板上的端口时是否存在差异,主板上的端口根本不支持任何 RAID。
我知道 3ware 控制器放在磁盘上的磁盘控制块 (DCB) 元数据,以便更换控制器而无需重新配置它,因为配置数据是从磁盘上的 DCB 块读取的。我的控制器使用“新格式”,这显然意味着控制器在磁盘的最后 1024 个 LBA 中写入 DCB。
我很想知道我的对齐工作是否不会被 3ware 控制器仅将磁盘的一部分呈现给操作系统。
我发现了什么:
如果只是 1024x512B(DCB)的差异是可以理解的,但是 160MB 似乎有点太大空间来存储这种类型的控制器元数据。
问题:
有谁知道在对齐连接到在这些磁盘上存储单元配置的控制器的磁盘上的分区时是否还有其他注意事项,我可能错过了?
出于好奇 - 有谁知道最后 160MB 的磁盘介质是做什么用的?
谢谢
控制器
视窗
我想我的阵列必须有一个 4KB 的块大小,这将它限制为 16TB。我想我必须切换到 64KB 块大小才能看到最大 256TB。或者在我的控制器上创建另一个单元以超过 16TB 的存储空间。
不幸的是,我已经添加了超过 16TB,理想情况下我想缩小阵列并回收 5 个没有做任何事情的磁盘。我不认为这是可能的。更有可能的是,我可以更改块大小以便 20TB 在 Windows 中可见吗?
编辑:
我的问题是阵列已经接受了超过 16TB 的磁盘,但没有显示它。我无法在不破坏阵列或更改集群大小的情况下回收磁盘。我担心更改集群大小可能需要几天/几周/几个月的时间?使用 Acronis。我选择购买四个 3TB 驱动器来迁移数据,然后将阵列重建为两个较小的卷。谢谢你的帮助 :)
今天早上我来到办公室,发现 RAID-6、3ware 9650SE 控制器上的两个驱动器被标记为降级,它正在重建阵列。在达到大约 4% 后,它在第三个驱动器上出现 ECC 错误(这可能发生在我尝试访问此 RAID 上的文件系统并从控制器收到 I/O 错误时)。现在我处于这种状态:
> /c2/u1 show
Unit UnitType Status %RCmpl %V/I/M Port Stripe Size(GB)
------------------------------------------------------------------------
u1 RAID-6 REBUILDING 4%(A) - - 64K 7450.5
u1-0 DISK OK - - p5 - 931.312
u1-1 DISK OK - - p2 - 931.312
u1-2 DISK OK - - p1 - 931.312
u1-3 DISK OK - - p4 - 931.312
u1-4 DISK OK - - p11 - 931.312
u1-5 DISK DEGRADED - - p6 - 931.312 …
Run Code Online (Sandbox Code Playgroud) 这与 DRIVE 故障无关。这是关于驱动器配置失败。
我为我的服务器购买了 3 个全新的驱动器,因为现有驱动器已经工作了 4 年以上,其中一个出现故障(显示 ECC 错误或降级)。我总是能够用现有驱动器重建阵列,但将它们全部替换是我的直接目标。
我检查了这些旧驱动器的规格,它们是 WD2003FYYS,每个扇区 512 字节。我认为也购买 512n 格式的 2TB 驱动器是合适的,所以我现在有希捷 ST2000NM0055。
问题
如下图所示,所有三个新驱动器的行为完全相同 - 3ware /LSI 9750-8i 不想正确检测这些。只是为了好玩,我插入了一个台式机驱动器,WD10EZEX 带有高级格式(4K 扇区),它显示了 OK 状态。所有 8 个驱动器都在热插拔托架中,所以我做了很多交换,还尝试了不同的托架 - 没有变化。控制器的事件日志甚至不像 WD10EZEX 那样显示“驱动器连接”事件
所有希捷都是全新的,上面没有分区(WD10EZEX 有一个)。它们在我的工作站上正常工作,连接到 eSATA 端口。CrystalDiskInfo 说它们都很好。(朗
题
有没有人遇到过这种行为?我该如何处理?我已经阅读了 9750-8i 的文档,但没有发现任何有关驱动器配置故障的信息,更不用说在这种情况下该怎么做了。就各种 RAID 而言,我并不是一个新手,直到今天我有 5 个不同的 3ware 控制器,但就手头的情况而言,我被难住了。请帮忙。
我已经下载了在我的 RAID 控制器上刷新固件所需的文件我还阅读了知识库文章:http : //www.3ware.com/KB/article.aspx?id=10058
但是它不是特别清楚 - 我还没有安装操作系统,那么我如何使用软盘/ USB 密钥刷新固件?
我有一个 3ware 9650-SE 控制器,带有 2 个 RAID-1 配置的驱动器。“端口 1”上的驱动器有错误,但驱动器笼没有标记。我尝试使用 cli 来“识别”驱动器,但 tw_cli 只是吐出“N/A”。我认为这可能会使驱动器活动 LED 闪烁,但不会:
# tw_cli /c7/p1 set identify=on
Setting port Identify on /c7/p1 to [on] ... N/A
Run Code Online (Sandbox Code Playgroud)
如何闪烁单个端口的驱动器活动以找出阵列中的哪个驱动器是坏的?