Cur*_*tis 3 debian server-crashes proxmox
今天早上我有一个服务器锁定。这是控制台的屏幕截图:

屏幕截图中的任何消息对我来说都没有任何意义。我有一种感觉,重要的东西可能从控制台上滚下来了。我无法在系统日志、消息、dmesg、调试日志或崩溃时记录的任何内容中找到来自上述屏幕截图的任何消息。这东西不应该被记录吗?
这是一个运行 Proxmox 的 Debian 机器。uname 输出:
2.6.32-4-pve #1 SMP Mon May 9 12:59:57 CEST 2011 x86_64 GNU/Linux
服务器已经在线大约一年,没有其他崩溃,它再次启动就好了。
我很想弄清楚问题可能是什么,以便我们可以防止将来再次发生。但是,根据我目前掌握的证据,我什至不知道这是硬件问题还是软件问题。想法?
您运行的是哪个 Debian 内核版本?如果您执行“dpkg -l | grep linux-image”,您可以看到完整版本和修订号。
看起来您遇到了一个相当普遍的错误,我已经多次看到该错误:在 3.2 主线之前、2.6.32.50 稳定版之前和 Debian 2.6.32-45(基于 2.6.32.50 稳定版)之前的内核中,有一个时钟溢出将在大约 208 天的正常运行时间后发生,这反过来又会导致崩溃的可能性。我不知道在那之后到底是什么导致了崩溃;补丁本身也很模糊:
Although we may still have enough bits to store the value of ns,
in some cases, we may not have enough bits to store cycles * cyc2ns_scale,
leading to an incorrect result.
Run Code Online (Sandbox Code Playgroud)
在确定导致它的原因并部署补丁之前,我已经看到由于此问题而导致的数百起崩溃。
2011 年底在 lkml 中详细讨论了该错误。可能存在与此除以零错误的联系,但我还没有找到任何结论。
TL; DR:在可能的解决办法是升级到Debian的Linux的镜像版本2.6.32- 45或更高版本。