小编sma*_*gen的帖子

服务器在没有内核恐慌的情况下冻结

我们正在运行一个 KVM 节点,它不规则地崩溃,表现出非常奇怪的行为。有趣的是,我们已经在另一个节点上遇到了这个问题,它每 1-2 周就会崩溃一次。由于找不到硬件问题,我们开始将 VM 迁移到新节点。在我们迁移了 50% 的虚拟机大约一周后,新节点崩溃了,而“旧”节点从那时起运行良好(正常运行时间为 3 周,我们已经好几个月没有看到这么好的正常运行时间了)。

当一个节点崩溃时,我们有时会在 Supermicro IPMI 上看到这些奇怪的东西:

在此处输入图片说明 在此处输入图片说明

我们还看到:

  • “无信号”就像服务器已关闭(当然不是,而且它也从未在 IPMI 主页上显示为已关闭)
  • 正常登录屏幕或服务器的其他正常输出,但冻结

在崩溃之前,我们从未看到内核恐慌或至少日志中的一些消息,完全沉默,直到灯突然熄灭。

随着问题从一台服务器“转移”到另一台服务器(一台全新的机器),我认为只剩下几个选项了:

  • 特定的 VM 导致了该问题
  • 内核错误
  • 关于我们的设置的硬件问题

有关机器的更多信息:

  • CentOS 7 最新内核 (3.10.0-514.2.2.el7.x86_64)
  • 带有冗余电源的 Supermicro 机箱
  • 具有最新 BIOS 版本的 Supermicro X10DRi / X10DRWi
  • 英特尔至强 E5-2630 v3 / v4
  • 512 GB DDR4 ECC 内存(三星服务器内存)
  • 运行 145 个虚拟机(RAM 和 CPU 远未饱和,这也归功于 KSM)
  • 带有 8 / 16 个 SSD 的软件 RAID-10

有没有人看到过这种行为,或者可以谈谈控制台上奇怪的“消息”吗?我从未见过这样的事情,甚至不知道我应该如何为谷歌搜索描述这一点。目前我们还没有很好的想法接下来应该做什么,因为它可能是一切。

提前致谢!

hardware server-crashes kernel supermicro kvm-virtualization

5
推荐指数
1
解决办法
2034
查看次数