非易失性缓存 RAID 控制器:对 NVCACHE 故障有哪些保护?

ast*_*stl 6 raid cache battery hardware-raid

备用电池 (BBU) 型号:

  • admin 使用 BBU 启用回写缓存
  • 写入缓存到 RAID 控制器的 RAM(主要性能优势)
  • 电池在断电时保存未提交和缓存的数据(可靠性)

如果我断电并在一天左右的时间内恢复,我的数据应该是完整且未损坏的。

这样做的缺点是,如果电池没电或电量低,或者即使处于重新循环(排水/充电循环以确保电池的健康),控制器会恢复到直写模式,性能会受到影响。更重要的是,重新学习周期通常按计划自动执行,这可能会或可能不会发生在大流量中。因此,如果有问题,必须手动禁用并手动安排下班时间。无论哪种方式都很烦人。

NV 高速缓存具有足够电荷的电容器,可以将任何未提交到磁盘的数据提交到闪存。这不仅在更长的损失情况下更容易生存,而且您不必担心电池耗尽、磨损或重新学习。

所有这些对我来说听起来都很棒。不过,对我来说听起来不太好的是闪存模块有问题的前景。如果它完全被冲洗了怎么办?如果它只是部分软管怎么办?边缘有点损坏?重新学习周期可以判断诸如简单电池之类的东西何时出现故障,但是否有类似的过程来验证闪光灯是否正常工作?我只是更信任电池,疣等等。

我知道卡的 RAM 可能会出现故障,卡本身也会出现故障——不过,这是常见的领域。

万一你没有猜到,是的,我经历了让我震惊的闪存/SSD/等。失败 :)

eww*_*ite 12

你想多了。

当然,这在一定程度上取决于制造商的具体实施,但在 10 年间部署了数千台 HP ProLiant 服务器后,我经历了数百次 RAID 控制器电池故障。我更换了坏单元,知道如果我没有一个健康的电池,突然断电或系统崩溃会导致一定程度的数据损坏。

我很高兴看到近年来转向闪存支持的写入缓存。HP ProLiant 系统上的闪存单元是一个单独的超级电容器,连接到控制器 RAM 模块。我想他们可能会失败。我还没有经历过。HP Smart Array RAID 控制器可以设置为无论电池/超级电容器健康状况如何,都保持启用写缓存。这假定了针对突然断电的设施保护。您仍然需要担心应用程序稳定性和系统崩溃。

听起来好像您指的是戴尔 PERC 控制器及其NVCACHE 实施。这是一个类似的设计。戴尔在他们的指南中解释......

4.5.1 Non-Volatile Cache
Dell PERC controllers with non-volatile (NV) cache use the standard battery as contained in the Dell 
PERC controllers with a battery back-up unit (BBU). The difference is in battery implementation:

- The battery in the BBU offering retains the data in cache in the event of a power cycle for a 
guaranteed period of 24 hours (typically up to 72 hours).

- The battery in the NV cache offering will transfer the data from cache to flash in the event of 
a power cycle, where the data will be retained for up to ten years.
Run Code Online (Sandbox Code Playgroud)

考虑您的应用程序和存储访问模式。您是否真的足够快地写入阵列并且大量数据无法有效刷新到磁盘?您的应用程序是否无法从崩溃或突然重启中恢复?

如果您真的很关心应用程序的可用性,请专注于保护设施电源(健康的 UPS + 发电机)并使用冗余组件(电源、风扇等)来支持您的系统

编辑:

我正在查看带有闪存支持的板载写入缓存的 HP Smart Array P410 RAID 控制器。闪光灯模块和较旧的外部电池有健康 LED 指示灯(HP 设备不执行重新学习周期)。

专用电池微控制器持续监控 HP Smart Array 电池组是否有损坏迹象,包括电池端子开路、电池部分短路、充电超时和过度放电情况。

对于超级电容,其健康状况受到监控,但 LED 指示灯位于闪光灯模块上。RAM 具有 ECC 纠错功能,因此这也是另一层防御。两者都通过 SNMP 陷阱报告给主机服务器,并可通过诊断实用程序查看。

来自 HP 的Smart Array 技术指南

超级电容子组件由两个串联配置的 35 法拉 2.7V 电容器组成,可在高达 5.4V 的情况下提供 17 法拉。充电器将超级电容维持在 4.8V,提供完成备份操作所需的电量,同时延长超级电容的使用寿命。充电器监控超级电容的健康状况并激活 FBWC 模块上的 LED 指示灯以警告即将发生的故障。Super-Cap 模块使用与 HP BBWC 中使用的 HP 650 mAh P 系列电池相同的外形和外壳。

我的观点是,制造商设计了解决方案,使闪存缓存解决方案发挥作用,并成为旧的基于电池的技术的可行替代品。提供适当的监控设施符合他们的利益。

请注意,检查 HP 最新一代闪存模块的视觉指示器。您可以确定所有这些检查都已集成到控制器的警报和诊断系统中。

在此处输入图片说明


Big*_*002 1

据推测,如果 RAID 控制器上的 BIOS 在测试期间遇到故障,服务器本身将无法启动。它会检查板载内存,就像主服务器 BIOS 检查自己的内存一样。如果您想了解这方面的详细信息,最好的办法是致电 RAID 卡的制造商。