ZFS - L2ARC 缓存设备故障的影响 (Nexenta)

eww*_*ite 10 zfs ssd nexenta zfs-l2arc

我有一台作为 NexentaStor 存储单元运行HP ProLiant DL380 G7 服务器。该服务器具有 36GB RAM、2 个 LSI 9211-8i SAS 控制器(无 SAS 扩展器)、2 个 SAS 系统驱动器、12 个 SAS 数据驱动器、一个热备盘、一个 Intel X25-M L2ARC 缓存和一个 DDRdrive PCI ZIL 加速器。该系统为多个 VMWare 主机提供 NFS。我的阵列上还有大约 90-100GB 的去重数据。

我遇到过两次性能突然下降的事件,导致 VM 来宾和 Nexenta SSH/Web 控制台无法访问,并且需要完全重新启动阵列才能恢复功能。在这两种情况下,都是 Intel X-25M L2ARC SSD 出现故障或“离线”。NexentaStor 未能就缓存故障向我发出警报,但在(无响应)控制台屏幕上可以看到常规 ZFS FMA 警报。

在此处输入图片说明

zpool status输出显示:

  pool: vol1
 state: ONLINE
 scan: scrub repaired 0 in 0h57m with 0 errors on Sat May 21 05:57:27 2011
config:

        NAME                        STATE     READ WRITE CKSUM
        vol1                        ONLINE       0     0     0
          mirror-0                  ONLINE       0     0     0
            c8t5000C50031B94409d0   ONLINE       0     0     0
            c9t5000C50031BBFE25d0   ONLINE       0     0     0
          mirror-1                  ONLINE       0     0     0
            c10t5000C50031D158FDd0  ONLINE       0     0     0
            c11t5000C5002C823045d0  ONLINE       0     0     0
          mirror-2                  ONLINE       0     0     0
            c12t5000C50031D91AD1d0  ONLINE       0     0     0
            c2t5000C50031D911B9d0   ONLINE       0     0     0
          mirror-3                  ONLINE       0     0     0
            c13t5000C50031BC293Dd0  ONLINE       0     0     0
            c14t5000C50031BD208Dd0  ONLINE       0     0     0
          mirror-4                  ONLINE       0     0     0
            c15t5000C50031BBF6F5d0  ONLINE       0     0     0
            c16t5000C50031D8CFADd0  ONLINE       0     0     0
          mirror-5                  ONLINE       0     0     0
            c17t5000C50031BC0E01d0  ONLINE       0     0     0
            c18t5000C5002C7CCE41d0  ONLINE       0     0     0
        logs
          c19t0d0                   ONLINE       0     0     0
        cache
          c6t5001517959467B45d0     FAULTED      2   542     0  too many errors
        spares
          c7t5000C50031CB43D9d0     AVAIL   

errors: No known data errors
Run Code Online (Sandbox Code Playgroud)

这不会触发 Nexenta 内部的任何警报。

我的印象是 L2ARC 故障不会影响系统。但在这种情况下,它肯定是罪魁祸首。我从未见过对 RAID L2ARC 的任何建议。从服务器上完全移除坏的 SSD 让我重新开始运行,但我担心设备故障的影响(可能也没有来自 NexentaStor 的通知)。

编辑- 现在用于 L2ARC 缓存应用程序的当前最佳选择SSD 是什么?

小智 10

ZFS 不做磁盘 I/O,ZFS 下面的设备驱动做磁盘 I/O。如果设备没有及时响应,或者在这种情况下,会中断扩展器上的所有其他设备,则它不会被视为 ZFS 故障。ZFS 看到的只是缓慢的 I/O。

Intel X-25M 固件中存在一个错误,该错误会影响其在重载期间的行为并可能导致重置风暴。这个问题会影响到所有的OS,在OS层是无法解决的。请联系您的硬件供应商进行修复或补救。

如果希望 L2ARC 满足读取,则将在那里尝试读取。然后 ZFS 依赖于较低层的驱动程序来报告错误。对于这种情况,根据驱动程序、设备和默认超时设置,驱动器在宣布 I/O 失败之前会继续重置并重试多达 5 分钟。只有在低层驱动程序声明 I/O 失败后,ZFS 才会在池上重试。

NexentaStor 的容量检查和磁盘检查运行程序会查找其他错误消息并通过电子邮件和故障记录提醒您。磁盘检查运行程序在 3.1 版本中得到了改进,以帮助您特别提醒您 SSD 中损坏的固件所表现出的情况。

底线:您的硬件有问题,需要修理或更换。

  • 谢谢你。所以我不会再使用 Intel X-25。我想要一个经过测试的推荐新 L2ARC SSD 设备来替换它。 (2认同)