Linux 服务器停止响应

sou*_*ser 0 linux

我们的 RedHat Linux 服务器之一只是停止响应几分钟。在这几分钟的时间里,日志文件(在 /var/log/ - 消息等下)或应用程序日志文件中绝对没有条目。我还能检查什么?

在那段时间里,用户无法访问该应用程序,我也无法通过 ssh 访问它。不记得我是否尝试过 ping。

之后,一切都按预期开始工作!

EEA*_*EAA 5

您是否有针对此框运行的任何趋势或监控?如果没有,可能很难诊断。这种行为可能是由多种原因引起的。以下是我脑子里的一些想法:

  • 瞬时网络故障(广播风暴、路由环路、生成树拓扑变化等)
  • IO 争用(是否有什么东西消耗了服务器的所有 RAM,导致它大量进入交换区?)
  • 服务器重启了吗?

展望未来,我强烈建议设置像Munin这样的东西。使用 Munin,您将能够轻松地监控磁盘 IO、内存使用、CPU 使用、进程计数、网络流量等。拥有这些信息可以更轻松地解决此类问题。或者,您可以安装和设置sar,它收集大部分相同的数据,但将其记录在文本文件中,您可以事后检查。