我有一台带有 Perc H710P RAID 控制器和 4 个连接的 3TB 驱动器的戴尔 T7600。在过去的几个月里,RAID 控制器在启动时间歇性地报告错误:“找不到启动设备”、“baseport 上的适配器没有响应”,磁盘经常报告为丢失或失败。
从那以后,我更换了 RAID 控制器、4 个硬盘驱动器,最后更换了系统的主板。
更换主板并重新启动几次后,出现错误
Single bit ECC errors were detected on the RAID controller.
Please contact technical support to resolve this issue.
Run Code Online (Sandbox Code Playgroud)
重新启动大约 20 次后,我还没有看到 ECC 错误。系统在其他方面似乎还可以,除了当系统完全空闲时磁盘风扇有时会开始全速吹气并且直到我重新启动才停止。
RAID 控制器的内存中是否存在 ECC 错误?或者,RAID控制器是否在系统内存中映射,而ECC错误真的在系统内存中?或者,驻留在 RAID 控制器中的 1GB 缓存中是否存在 ECC 错误?
我有一台带有 PERC H710P 的戴尔 T7500,连接到 RAID5 阵列中的 4 个 3T 驱动器。控制器还连接了 2 个 256G SSD 驱动器,未配置在阵列中。Linux 服务器安装在其中一个 SSD 驱动器上,RAID5 是存储我所有用户数据的地方。
前几天启动时,RAID BIOS 报告错误
Drives 01 and 03 missing
Foreign config available
Run Code Online (Sandbox Code Playgroud)
我加载了外部配置,驱动器重新出现。在下一次启动时,我得到了
Drive 01 offline
Run Code Online (Sandbox Code Playgroud)
认为驱动器坏了,我用新驱动器替换它并重建驱动器 01。当我下次启动时,系统运行正常,但几次重启后我得到了
Drive 00 offline
Foreign config available
Run Code Online (Sandbox Code Playgroud)
所以我阅读了外国配置并强制在线00。
经过几次重新启动后,我得到了
Drive 03 offline
Foreign config available
Run Code Online (Sandbox Code Playgroud)
读入外部配置。强制驱动器 03 在线。
现在系统就OK了。我已经重启过很多次了。
我应该假设我的控制器是坏的吗?
或者换一种说法,这种行为是否有可能是由控制器以外的其他原因引起的?例如,内核驱动程序能否以某种方式破坏驱动程序配置?
我有一个 Perc H710 配置为 RAID5,带有 4 个连接的 3TB Seagate 7200rpm 硬盘。
两个月前,我收到了这些虚假错误,使我相信我的控制器坏了。
我更换了控制器,一切正常,直到几天前我开始遇到类似的错误。驱动器 00 和 03 被报告为失败、脱机或丢失。戴尔给我发了另一个(第三个)RAID 控制器,现在 perc bios 说:
Drive 00 missing
Drive 03 missing
Run Code Online (Sandbox Code Playgroud)
所以我拔出驱动器并使用磁盘实用程序单独检查它们。实际上,驱动器 00 和驱动器 03 有坏扇区。我使用的 Linux 磁盘实用程序说驱动器 00 有“一些坏扇区”,驱动器 03 有“许多坏扇区”。
严重地?两个驱动器在同一天出去了?
另一方面,是否有可能一个驱动器在一段时间内发生故障,然后另一个驱动器发生故障,因为它一直在旋转,试图重建第一个......或类似的东西?