zid*_*sk8 5 linux ubuntu debug
这是交易,
开始工作只是发现一台服务器根本没有响应,机器已打开,但屏幕根本不显示任何内容,不响应键盘输入(我没有启用 sys rq 键)。
服务器需要尽可能快地启动和运行,所以我对服务器进行了硬重置,现在一切正常。
现在我的老板想知道发生了什么以及为什么。
那么如何在重新启动之前开始调试出了什么问题呢?我应该特别注意哪些日志,您现在是否有任何关于如何调试随机服务器冻结的巧妙技巧(这种情况不经常发生 - 这是我第一次看到它)
感谢您提供任何有用的指导方针和建议。
Ps:我正在运行 ubuntu 服务器 12.04。
由于这可能是硬件故障,我会查看一些硬件诊断信息。
如果您有硬件 RAID 控制器,我会找出您是否可以阅读其日志(如果是 3Ware,请使用 tw_cli)。而且,无论您有硬件还是软件 RAID,您都可以查看磁盘的 SMART 参数(如果磁盘连接到 RAID 控制器,您可能需要特殊命令来访问它们。请参阅smartctl联机帮助页)。
如果你这样做:
smartctl -a /dev/sdX
Run Code Online (Sandbox Code Playgroud)
我总是主要看:
另外,请密切关注 dmesg 和 syslog 以查看是否随着时间的推移出现错误。例如,磁盘错误通常在作为 ata 异常成为致命问题之前很久就出现了。我们有一个中央日志服务器(使用 rsyslog)通知我有关 ata 异常的信息。关于如何设置的快速示例:
/etc/rsyslog.d/60-smtp.conf:
$ModLoad ommail
$ActionMailSMTPServer localhost
$ActionMailFrom noreply@example.com
Run Code Online (Sandbox Code Playgroud)
/etc/rsyslog.d/70-mail-ata-errors:
$ActionMailTo you@yexample.com
$template mailSubjectATA,"ATA error on %hostname%"
$template mailBodyATA,"You have ATA errors. Mostly it's the disk and you get these errors before a possible mdraid setup kicks the drive.\r\nBEWARE: ata1.00 is first ata, first disk. Ata1.01 is first ata, second disk. Use the ata-to-device-names.sh script to identify devices.\r\n msg='%msg%'"
$ActionMailSubject mailSubjectATA
$ActionExecOnlyOnceEveryInterval 3600
:msg, regex, "ata.*exception" :ommail:;mailBodyATA
Run Code Online (Sandbox Code Playgroud)
有关ata-to-devicenames脚本,请参见此处。
您可以做的另一件事是 memtest。Ubuntu 安装 DVD/CD 的引导菜单中有这些,我相信任何 Ubuntu 服务器的常规引导菜单中也都有。让我们至少通过一次,如果可能的话更多。
你有 ECC RAM BTW 吗?ECC RAM 对于长期稳定性和数据完整性非常重要。