如何诊断 ubuntu 服务器重启

Gel*_*Luo 3 linux ubuntu

我的 ubuntu 服务器(12.04)有时会在没有通知的情况下重新启动。如何检查是什么触发了服务器重启?

Dr.*_*ius 6

这是一门艺术。

如果可以,请启用串行控制台(您将需要 BIOS 支持,可能需要启用 GRUB 支持并运行 TTY),并确保系统日志和内核写入控制台。将其捕获到另一台服务器上的文件的屏幕会话可能很有用。

通常的日志嫌疑人: /var/log/messages, /var/log/syslog, /var/log/kern.log, /var/log/debug。请注意,/var/log/dmesg仅在启动后不久捕获内核环形缓冲区,因此它可能不会有太多信息。

要做的最有用的事情之一是启用netconsole内核日志服务。您需要在某处(最好是附近)使用 syslog 服务器来捕获输出。 kdump假设数据可以安全地记录到磁盘也很有用。

如果您仍然感到困惑,请开始查看硬件组件(内存、CPU 和主板组件是主要嫌疑人),更换/禁用其中的部分或全部等。内核驱动程序可能导致故障,因此加载/卸载模块可能会显示事物。

BIOS 配置可能会产生问题。例如:戴尔几年前有一个“CSTATE”设置问题,英特尔有一个北门/南门配置问题。请咨询您的 BIOS/系统供应商以获取任何建议的设置或固件更新。

多年来,由于电容器损坏、RAM 损坏、BIOS、samba 驱动程序、硬件加密加速器、电源/配电元件、主板接线、主电源中断以及各种形式的操作员错误/干预,我遇到过随机锁定/崩溃. 通常,从简单/可记录的东西开始,并开始从可能的候选中消除组件(硬件或软件)。