我们正在运行一个 KVM 节点,它不规则地崩溃,表现出非常奇怪的行为。有趣的是,我们已经在另一个节点上遇到了这个问题,它每 1-2 周就会崩溃一次。由于找不到硬件问题,我们开始将 VM 迁移到新节点。在我们迁移了 50% 的虚拟机大约一周后,新节点崩溃了,而“旧”节点从那时起运行良好(正常运行时间为 3 周,我们已经好几个月没有看到这么好的正常运行时间了)。
当一个节点崩溃时,我们有时会在 Supermicro IPMI 上看到这些奇怪的东西:
我们还看到:
在崩溃之前,我们从未看到内核恐慌或至少日志中的一些消息,完全沉默,直到灯突然熄灭。
随着问题从一台服务器“转移”到另一台服务器(一台全新的机器),我认为只剩下几个选项了:
有关机器的更多信息:
有没有人看到过这种行为,或者可以谈谈控制台上奇怪的“消息”吗?我从未见过这样的事情,甚至不知道我应该如何为谷歌搜索描述这一点。目前我们还没有很好的想法接下来应该做什么,因为它可能是一切。
提前致谢!
hardware server-crashes kernel supermicro kvm-virtualization