硬件 RAID 控制器缓存电池故障频率/寿命?

eww*_*ite 14 hardware cache battery hardware-raid

我所在的环境包含许多配备AdaptecLSI MegaRAID硬件 RAID 控制器的Supermicro服务器。这些控制器包含电池供电的缓存模块,以帮助提高写入性能并保护传输中的数据。

常见的支持问题是 RAID 控制器电池故障。此偏移从阵列回写写通模式。由于系统以降低的写入速度运行,这显然会对性能产生负面影响。这种情况一直存在,直到可以建立停机时间窗口以关闭系统电源并更换电池。

这对我们来说是非常常规的操作;几乎每周在数千个物理服务器上...我们甚至有充电站来准备更换电池,以便可以在没有充电周期的情况下更换电池。

也许我被 HP ProLiant 服务器和Smart Array RAID 控制器的悠久历史所宠坏,但 HP 系统的电池寿命通常为 4-6 年。他们最终在 2009 年左右取消了 RAID 电池的使用。它们被超级电容器支持的内存模块(闪存支持的写缓存,或 FBWC)所取代,并且不需要更换、处理或漫长的初始充电周期。

由于我看到 Adaptec 和 LSI 控制器电池故障有时发生在使用时间不到12 个月的系统上,我想知道这在其他环境中是否常见。

如果这是常见的,其他大型服务器环境如何处理?

  • 处理 RAID 电池更换的任何提示或技巧?
  • 是否有任何配置参数可以提供帮助?
  • 这对环境中的操作有多大的破坏性?
  • 机箱冷却和温度不佳会是一个因素吗?
  • 我们做错了什么吗?
  • Dell PERC 控制器由 LSI 制造。戴尔环境是否会经历同样短的电池寿命?

LSI 产品资料概述了一种使用寿命超过 1 年的新一代电池。 在此处输入图片说明

HP ProLiant DL585 G2 服务器,具有 1000 多天的正常运行时间和令人满意的 RAID 电池...

# uptime 
 05:38:08 up 1031 days, 44 min, 31 users,  load average: 0.49, 0.64, 0.99

# hpacucli
   Cache Board Present: True
   Cache Status: OK
   Accelerator Ratio: 50% Read / 50% Write
   Total Cache Size: 512 MB
   Battery Pack Count: 1
   Battery Status: OK
Run Code Online (Sandbox Code Playgroud)

the*_*bit 9

我怀疑您的 Supermicros 以一种或另一种方式损坏了 - 可能是电池组过热。最新的 LSI 将通过 MegaCLI 报告温度 - 您可能希望在需要更换的服务器上监控此值。

root@host:~/SOLARIS# ./MegaCli -AdpBbuCmd -GetBbuStatus -aALL

BBU status for Adapter: 0

BatteryType: BBU
[...]
Temperature: 41 C
Run Code Online (Sandbox Code Playgroud)

我见过几个带有 LSI BBU 控制器的戴尔和富士通系统,它们都没有每年更换电池组(除非你通过深度放电把电池组搞砸了)。典型的使用寿命约为 3 至 5 年。

  • 我要补充一点,除非系统 ***EXPLICITLY*** 授权热更换 RAID BBU,否则我不会尝试这样做。我从未见过需要每年更换 RAID 缓存电池的系统。3-5 年是典型的使用寿命。 (4认同)