如何判断 ESXi 上的磁盘是否出现故障/这些错误是什么意思？

Question

如何判断 ESXi 上的磁盘是否出现故障/这些错误是什么意思？

Jos*_*osh 10 debian vmware-esxi drive-failure

我有一台运行 VMware ESXi v4.1.0 348481 的服务器。它有一个硬件 RAID10 和一个 SATA 备份驱动器。我有一个正在运行的虚拟机，它在 RAID10 数据存储上有主引导 vmdk，在 SATA 备份驱动器的数据存储上有一个 600 GB vmdk。VM 运行带有 FreeBSD 内核的 Debian linux，并使用 ZFS 作为备份驱动器。

编辑：驱动器不直接连接到 VM。它用作 VMware 数据存储，并且 VM 在 SATA 驱动器的数据存储上有一个 vmdk。数据存储是不完整的（只有65％满）

我使用 SSH 登录到服务器，发现昨晚的备份挂了，zfs list或者zpool list两者都挂了。所以我在 ESXi 中打开了虚拟控制台，很伤心地看到：

这个截图让我很伤心

(da1:mpt0:0:1:0): READ(10). CDC: 28 0 19 97 3a 50 0 0 2d 0
(da1:mpt0:0:1:0): CAM status: SCSI Status Error
(da1:mpt0:0:1:0): SCSI status: Check Condition
(da1:mpt0:0:1:0): SCSI sense: MEDIUM ERROR info:4862ec asc:11,4 (Unrecovered read error - auto reallocate failed)
(da1:mpt0:0:1:0): READ(10). CDC: 28 0 19 97 3a 50 0 0 2d 0
(da1:mpt0:0:1:0): CAM status: SCSI Status Error
(da1:mpt0:0:1:0): SCSI status: Check Condition
(da1:mpt0:0:1:0): SCSI sense: MEDIUM ERROR info:4862ec asc:11,4 (Unrecovered read error - auto reallocate failed)

Run Code Online (Sandbox Code Playgroud)

我尝试重新启动 VM，但收到一条消息，提示系统正在关闭以重新启动，然后挂起。（^C 出现但不杀死shutdown）。我不能中断或kill -9对zpool list zfs list或rsync过程-当我尝试没有任何反应。

这是否表示备份 SATA 驱动器出现故障？或者这可能只是 ESXi 错误？
我如何在 vSphere 客户端中判断驱动器是否出现故障？我没有看到任何指示，硬件健康状态下的所有内容看起来都不错，而我在存储配置下什么也没看到。
我应该如何从这里开始？我应该硬重启虚拟机吗？

更新：我只是硬重启了虚拟机。重新联机后，备份 zpool 联机，但是：

root@timestandstill:/home/jnet# zpool status -v
  pool: backup
 state: ONLINE
status: One or more devices has experienced an error resulting in data
        corruption.  Applications may be affected.
action: Restore the file in question if possible.  Otherwise restore the
        entire pool from backup.
   see: http://www.sun.com/msg/ZFS-8000-8A
 scrub: none requested
config:

        NAME        STATE     READ WRITE CKSUM
        backup      ONLINE       0     0     0
          da1       ONLINE       0     0     0


errors: Permanent errors have been detected in the following files:

        /backups/someserver/home/someuser/public_html/somedir/calendar/someuser/calendars/somefile.ics

Run Code Online (Sandbox Code Playgroud)

我非常倾向于更换驱动器......

Answer 1

sys*_*138 5

这些错误确实表明其中一个 SATA 驱动器遇到了足够多的坏块以耗尽块重新分配空间。那个驱动坏了，需要更换。我不确定该信息显示在 vSphere 客户端的哪个位置，但日志条目非常清楚。

如果您的硬件允许，热插拔应该是可行的。否则，您将不得不关闭一切才能执行更改。如果该虚拟机在 30 分钟后仍未自行关闭，则是硬终止它的时候了。这是有风险的，但如果它真的挂了，那就没什么用了。

归档时间：	14 年，5 月前
查看次数：	12347 次
最近记录：	14 年，5 月前