如何检测虚拟机冻结

kvz*_*kvz 5 ubuntu monitoring virtual-machines

在云平台上,您经常听到由于相邻 VM 的高负载、磁盘超额订阅以太网、备份或实时迁移到其他硬件,虚拟机可能会“冻结”片刻。

我怀疑这发生在我们的一个云提供商上的 Ubuntu 虚拟机上,我不想公开羞辱。

每天晚上,外部监控服务都无法使用它。机器本身在负载、流量等方面看起来很健康。供应商建议网络虽然很好。

我希望能够(反驳)证明 VM 冻结导致这些寻呼机。

我的一个想法是每秒将日期写入日志,然后在短暂的不可用后查看我们是否跳过了“节拍”。
然而,这似乎是有缺陷的,因为如果 VM 保持自己的时钟并允许从主机的硬件漂移怎么办。
如果我们的内部时钟与 VM 一起冻结,我们在该日志文件中仍然会有很好的秒数序列,并且时钟现在落后于实时。

有没有更好的方法/工具可以用来确定是否有机器冻结?

我猜是实时的,我们的时间可以证明,然后再一次,时钟漂移还有其他原因。

小智 0

您可以使用 Nagios,这是一种用于监控的 IT 解决方案。有了这个,您可以检查CPU 负载(以及许多其他事情),并通过邮件或 Web 控制台接收警报。您必须在 PC 中安装服务器,并在虚拟机中安装远程插件执行器。

这是一个非常酷的教程: http://www.howtoing.com/how-to-add-linux-host-to-nagios-monitoring-server/