我使用带有多个 OpenVZ 容器的 Debian Squeeze 运行服务器。容器主要运行 Squeeze,一些 Lenny,还有一些已经更新到 Wheezy。除了 iptables 和 DHCP 之外,主机并没有做太多事情。文件服务器、代理、邮件服务器、kerberos、LDAP ……都被放入容器中。系统运行稳定多年,一年多除了一些防火墙规则外,没有大的变化。
2天前突然系统崩溃了。我有很多问题再次提出它。起初它不会让我通过 ssh 登录。root 登录被“你不存在”拒绝。离开!' 本地登录没问题。一段时间后 ssh 又开始工作了。巧合的是,我没有重新使用 bash 历史记录中的行,而是输入了一个新命令,该命令三次检查与该行相同,该行之前不起作用但在崩溃前起作用。
然后系统运行,但大多数协议上的网络流量在 SYN ACK 后被阻止。DNS、Telnet 和 SSH 都很好,但其余的就一团糟。在黑暗中钓鱼几个小时并重新加载防火墙几次后,突然一切都恢复正常了。我在日志中找不到任何可疑的东西 - 但我不是法医专家。
今天,由于容器配额,文件服务器的 nscd 耗尽了套接字以联系 LDAP。以前从未发生过的事情。我还看到了很多(> 30 个)smbd 声明的套接字。
/var/log/messages 看起来与syslog非常相似。/var/log/kern.log 有关于崩溃原因的附加信息:
/var/log/kern.log:2950:Sep 19 10:46:57 asgard kernel: [6529441.320086] INFO: task sendmail:32181 blocked for more than 120 seconds.
/var/log/kern.log:2982:Sep 19 10:48:57 asgard kernel: [6529561.324525] INFO: task kdmflush:1932 blocked for more than 120 seconds.
/var/log/kern.log:3005:Sep 19 10:48:57 asgard kernel: [6529561.324694] …Run Code Online (Sandbox Code Playgroud)