Jos*_*osh 10 debian vmware-esxi drive-failure
我有一台运行 VMware ESXi v4.1.0 348481 的服务器。它有一个硬件 RAID10 和一个 SATA 备份驱动器。我有一个正在运行的虚拟机,它在 RAID10 数据存储上有主引导 vmdk,在 SATA 备份驱动器的数据存储上有一个 600 GB vmdk。VM 运行带有 FreeBSD 内核的 Debian linux,并使用 ZFS 作为备份驱动器。
编辑:驱动器不直接连接到 VM。它用作 VMware 数据存储,并且 VM 在 SATA 驱动器的数据存储上有一个 vmdk。数据存储是不完整的(只有65%满)
我使用 SSH 登录到服务器,发现昨晚的备份挂了,zfs list或者zpool list两者都挂了。所以我在 ESXi 中打开了虚拟控制台,很伤心地看到:

(da1:mpt0:0:1:0): READ(10). CDC: 28 0 19 97 3a 50 0 0 2d 0
(da1:mpt0:0:1:0): CAM status: SCSI Status Error
(da1:mpt0:0:1:0): SCSI status: Check Condition
(da1:mpt0:0:1:0): SCSI sense: MEDIUM ERROR info:4862ec asc:11,4 (Unrecovered read error - auto reallocate failed)
(da1:mpt0:0:1:0): READ(10). CDC: 28 0 19 97 3a 50 0 0 2d 0
(da1:mpt0:0:1:0): CAM status: SCSI Status Error
(da1:mpt0:0:1:0): SCSI status: Check Condition
(da1:mpt0:0:1:0): SCSI sense: MEDIUM ERROR info:4862ec asc:11,4 (Unrecovered read error - auto reallocate failed)
Run Code Online (Sandbox Code Playgroud)
我尝试重新启动 VM,但收到一条消息,提示系统正在关闭以重新启动,然后挂起。(^C 出现但不杀死shutdown)。我不能中断或kill -9对zpool list zfs list或rsync过程-当我尝试没有任何反应。
更新:我只是硬重启了虚拟机。重新联机后,备份 zpool 联机,但是:
root@timestandstill:/home/jnet# zpool status -v
pool: backup
state: ONLINE
status: One or more devices has experienced an error resulting in data
corruption. Applications may be affected.
action: Restore the file in question if possible. Otherwise restore the
entire pool from backup.
see: http://www.sun.com/msg/ZFS-8000-8A
scrub: none requested
config:
NAME STATE READ WRITE CKSUM
backup ONLINE 0 0 0
da1 ONLINE 0 0 0
errors: Permanent errors have been detected in the following files:
/backups/someserver/home/someuser/public_html/somedir/calendar/someuser/calendars/somefile.ics
Run Code Online (Sandbox Code Playgroud)
我非常倾向于更换驱动器......
这些错误确实表明其中一个 SATA 驱动器遇到了足够多的坏块以耗尽块重新分配空间。那个驱动坏了,需要更换。我不确定该信息显示在 vSphere 客户端的哪个位置,但日志条目非常清楚。
如果您的硬件允许,热插拔应该是可行的。否则,您将不得不关闭一切才能执行更改。如果该虚拟机在 30 分钟后仍未自行关闭,则是硬终止它的时候了。这是有风险的,但如果它真的挂了,那就没什么用了。
| 归档时间: |
|
| 查看次数: |
12347 次 |
| 最近记录: |