我们一直在为我们的数据库服务器Lenovo ThinkServer RD120 中的 RAID 控制器而苦恼。这是一个重新命名的 Adaptec,联想/IBM 将其称为ServeRAID 8k。
我们已将此ServeRAID 8k修补到最新最好的:
即使在我们拥有它的短短 4 个月内,这个 RAID 控制器也有多次关键的 BIOS 更新,而且更改历史只是……好吧,可怕。
我们已经在逻辑 RAID 驱动器上尝试了回写和直写策略。在大量磁盘活动下,我们仍然会遇到间歇性 I/O 错误。它们并不常见,但发生时会很严重,因为它们会导致 SQL Server 2008 I/O 超时,有时还会导致 SQL 连接池失败。
我们已经完成了对这个问题的故障排除。由于缺少更换整个服务器或更换 RAID 硬件等核心技术,我们变得绝望了。
当我第一次拿到服务器时,我遇到了无法识别驱动器托架 #6 的问题。奇怪的是,将硬盘驱动器更换为不同品牌的硬盘驱动器解决了这个问题——并更新了 RAID BIOS(多次中的第一次)永久修复了它,因此我能够在托架 6 中使用原始的“不兼容”驱动器。凭直觉,我开始假设我选择的西部数据 SATA 硬盘在某种程度上与 ServeRAID 8k 控制器不兼容。
购买 6 个新硬盘驱动器是桌面上更便宜的选择之一,所以我选择了6 个 Hitachi(又名 IBM,又名联想)硬盘驱动器,其理论是 IBM/联想 RAID 控制器更有可能与通常使用的驱动器配合使用出售。
看起来这种预感得到了回报——我们已经度过了负载最重的三天(周一、周二、周三),没有出现任何类型的 I/O 错误。在此之前,我们经常在这个时间范围内至少有一个 I/O“事件”。看起来更换硬盘驱动器品牌确实解决了我们间歇性的 RAID I/O 问题!
虽然我知道 IBM/Lenovo 可能只使用他们自己品牌的硬盘驱动器测试他们的 RAID 控制器,但我感到不安的是,RAID 控制器在使用特定品牌的硬盘驱动器时会出现如此微妙的 I/O 问题。
所以我的问题是,这种 SATA 驱动器不兼容是否与 RAID 控制器常见?是否有一些品牌的驱动器比其他驱动器工作得更好,或者针对特定 RAID 控制器进行了“验证”?我曾假设所有商品 SATA 硬盘都是相似的,并且在任何给定的 RAID 控制器(质量足够)中都能很好地工作。
小智 13
即使对于非 RAID 的普通台式机硬盘,从供应商处购买驱动器(以预期的荒谬加价)通常会有所作为。例如,Apple 小心翼翼地只提供真正能够支持Mac OS XF_FULLSYNC
fcntl()
标志的驱动器,这对于确保Time Machine备份等功能可靠运行大有帮助。
同样,这是普通的桌面使用,不涉及 RAID。任何比这更复杂并且您肯定想购买的东西,如果不是供应商自己定价过高的驱动器,那么至少您确定的驱动器型号都在供应商的“批准”列表中。
那么,回答你的问题,这很常见吗?我会说,是的,比您想象的更普遍,甚至超出了企业领域。
是的,我在使用低端卡和有问题的驱动程序时遇到过这种情况。但是,不,不是在最新的 Adaptec 更名卡上。我只能说哇。需要考虑的一件事,也许它比 RAID 控制器更像是驱动器的错误。
我没有很好的答案,但是由于除了更换卡之外,您似乎已经用尽了大部分选择(并且更换驱动器可以解决问题)这里有一些您可以考虑用于故障排除的想法:
WD 驱动器是 RE(RAID 版)驱动器,对吗?有时间限制的错误恢复很重要,所以如果你没有那个并且驱动器正在尝试恢复扇区,你会从那个驱动器中得到一个很长的暂停。如果 RAID 控制器耐心等待并且不掉下驱动器,那么您的手上就会有大问题。
检查您移除的驱动器上的 SMART 数据,看看是否有任何有趣的东西。
关于限时错误恢复 (TLER) 功能重要性的另一条评论,来自 NAS / RAID 供应商支持:
正如我之前提到的,如果客户在 RAID 设置中使用驱动器,我们总是建议客户使用企业级驱动器。企业级驱动器具有更一致的响应时间,因此 RAID 将更安全。
归档时间: |
|
查看次数: |
4005 次 |
最近记录: |