一个未知工具正在擦除我们的虚拟机,我们无法识别它

Rqo*_*mey 18 hard-drive nfs windows-server-2008-r2 vmware-vsphere

vSphere 上的 Windows 2008 R2 虚拟机的控制台视图显示以下屏幕:

节目截图

“操作 2 of 2”“擦除磁盘”

有人可以建议这个程序是什么吗?

关于这个谜团的一些信息:

许多虚拟机现在都受到影响。症状是重新启动后出现“找不到操作系统”消息。

  • VM 在 ESXi 上运行。虚拟机在特定的数据存储上运行
  • Netapp NFS 在工作盒中安装磁盘显示没有分区表,尚未能够进行十六进制转储。
  • VM 不是硬重置,必须是操作系统启动的软重置
  • 没有安装 iso 没有对 VM 的“非访客”访问,因此需要 RDP 或类似的
  • 使用 netapp 备份软件隔夜执行备份
  • 有问题的 NFS 在后端(阵列级别)进行精简配置,并且在我们看到这些问题后就耗尽了空间。

Rqo*_*mey 10

不幸的是,看起来我们可能无法深入了解应用程序是什么,但为了从这次事件中获得一些价值,我想创建一个参考答案。这是以 VMware 和虚拟层管理为中心的。许多管理员处于隔离状态,无法快速获得访客或存储访问权限,这是为他们准备的 :)

http://support.seagate.com/kbimg/flash/laptop/Laptop.swf似乎与@MosheKatz 发现的实际应用程序最接近。

如果将来发生这种情况,调查应如下所示:

  • 您会注意到一些但并非所有 VM 都崩溃了。您怀疑这是由于存储问题(因为它通常是最可能的原因)
  • 首先尝试分离一个公因子。所有崩溃的虚拟机是否共享同一个数据存储?在这种情况下,它们是,但有些机器没问题,所以我们排除了明显的硬件问题。
  • 检查所有损坏的 VM 以查看是否存在共同因素(时间、功能等)。在这种情况下没有。
  • 检查其他异常事件。有些东西在这里举起了旗帜:

    • NFS 存储是瘦支持的(在阵列级别)。这意味着虽然例如。200GB 提供给 ESXi 主机,实际上只有 100GB 可用。但是,只有数组具有此知识。我们发现许多虚拟机因磁盘空间不足而暂停。我们认为这可能是根本原因,因此我们的首要行动是在后端分配更多存储空间,以消除这个问题。
  • 一旦这个问题得到解决(一个简单的 UI 更改),并且暂停的虚拟机成功重启,我们就回到了原来的问题。我们将损坏的虚拟机中的虚拟磁盘挂载到工作虚拟机上,发现磁盘上没有分区表。我们没有可用的十六进制查看器,所以不得不假设磁盘现在是空的。

  • 监控系统向一个新的虚拟机发出警报,该虚拟机没有响应。这很棒,因为在几分钟前,由于磁盘空间问题,VM 的负载才变得无响应,因此快速找到这个新 VM 的事实表明监控管理良好。

  • 我们打开了一个控制台并检查了来宾,并看到了上面的屏幕截图。

    • 这个阶段我去服务器故障聊天室看能不能识别程序,我的存储同事检查了所有的虚拟层日志和事件,以确保没有从我们区域运行的存储操作。
  • 我们应该做的是挂起 VM,允许写出挂起文件,并分析转储以查看是否可以识别正在运行的程序。将 VM 挂起到核心 PDF VMware KB

归根结底,我们知道虚拟基础架构工具不会像上述那样在来宾中报告。我们可以看到没有安装 ISO,也没有针对 VM 记录的事件。我们可以看到 VM 不是“硬重启”,只是软重启(这对底层基础架构不可见)。我们知道这不是存储方面,因为我们已经排除了这一点。我们怀疑它不是自动化的,因为它发生在特定虚拟机上的几个小时内。我们猜测它不是恶意的,因为如果它是,控制台为什么会报告磁盘擦除:)

因此,结论是用户发起的磁盘擦除。我的调查就到此为止,但我希望您发现它有用。

得到教训:

  • 备份和测试您的还原
  • 确保所有用户,特别是管理员用户,知道他们在一个精简配置的环境中工作,并且应该避免任何类似写出磁盘格式化的事情(即写入 1 的负载
  • 有一个良好的监控系统到位。
  • 对我来说还有一个新的:在任何大型虚拟环境中,准备好工具虚拟机,甚至关闭电源,安装诊断工具;性能,网络存储。如果这可用,我们可以在损坏的磁盘上安装并执行十六进制转储,以查看它是否真的是空的,或者只是缺少一个 mbr。我们也可以看到它是否用 1 写出。