sma*_*gen 5 hardware server-crashes kernel supermicro kvm-virtualization
我们正在运行一个 KVM 节点,它不规则地崩溃,表现出非常奇怪的行为。有趣的是,我们已经在另一个节点上遇到了这个问题,它每 1-2 周就会崩溃一次。由于找不到硬件问题,我们开始将 VM 迁移到新节点。在我们迁移了 50% 的虚拟机大约一周后,新节点崩溃了,而“旧”节点从那时起运行良好(正常运行时间为 3 周,我们已经好几个月没有看到这么好的正常运行时间了)。
当一个节点崩溃时,我们有时会在 Supermicro IPMI 上看到这些奇怪的东西:
我们还看到:
在崩溃之前,我们从未看到内核恐慌或至少日志中的一些消息,完全沉默,直到灯突然熄灭。
随着问题从一台服务器“转移”到另一台服务器(一台全新的机器),我认为只剩下几个选项了:
有关机器的更多信息:
有没有人看到过这种行为,或者可以谈谈控制台上奇怪的“消息”吗?我从未见过这样的事情,甚至不知道我应该如何为谷歌搜索描述这一点。目前我们还没有很好的想法接下来应该做什么,因为它可能是一切。
提前致谢!
对此的简短更新:升级到最新的 LTS 内核 (4.4.39) 后,服务器稳定了。现在正常运行时间已达 19 天,所以我想我们已经完成了。尽管我们并不真正知道根本原因,但我们认为 CentOS 7 内核 (3.10) 对于某些非常现代的硬件来说可能太旧了。由于我们无法提供有用的错误消息(如最好情况下的内核恐慌),我们决定不向 CentOS 开发人员报告此情况。