如何处理(VMware ESXi)服务器崩溃?

3 vmware-esxi

我有一台专用服务器(Core 2 Duo E4600、2GB DDR2、具有 250GB SATA 存储的 LSI Raid 1)。运行 VMware ESXi 3i (3.5.0) 和 3 个 VM(1x Ubuntu 9.04、1x Ubuntu 9.10、1x Windows 2003 Web 版)

今天下午它突然停止响应。VMware Infrastructure Client 无法连接,远程桌面无法连接,SSH 无法连接。尝试了不同的互联网连接等。几分钟后,我决定进行远程电源循环,这让一切重新启动并运行。

现在我想知道:分析或调试这种服务器崩溃的正确方法是什么?

ESXi 事件日志从一张干净的表开始,所以什么都没有。虚拟机(linux syslog、windows 事件日志)没有报告任何特殊情况,并且该机器的总体负载确实中等。

有哪些地方可以看?我可以在某处启用更多日志记录,以便调查未来可能发生的崩溃吗?

Sha*_*son 6

在崩溃后重新启动时,ESX 通常会在 /root 主目录中创建一个 vmkernel-zdump 文件。这是一个压缩文件,其中包含核心映像和 /var/log/vmkernel 日志文件的一个块。首先要做的是从这个转储文件中获取日志文件

[root] vmkdump -l vmkernel-zdump-101409.14.18.1
created file vmkernel-log.1
Run Code Online (Sandbox Code Playgroud)

并查看最后几行,看看您是否可以从最后的日志条目或堆栈跟踪中获得任何提示。