随机关机

ity*_*ity 6 shutdown arch-linux hardware reboot

我在 Dell PowerEdge R210 上运行 Arch Linux。它的负载不高,只有几个脚本正在运行。没有像网络服务这样的任何软件——只有基础系统。服务器之前一直运行良好,没有进行任何更改,但它开始每隔几天随机关闭一次。服务器受可信赖的 UPS 保护,但即使在没有 UPS 的情况下直接插入,它也会不断关闭,因此这不是电源问题。我通过每分钟执行传感器实用程序来监控温度,直到服务器关闭——没有错,所有传感器都显示接近 30 度的温度。所以这不是散热问题。机箱启用了ipmi,所以每次关机后我都可以执行“power on”ipmi 命令,服务器启动并正常运行。

“restart_cause”中没有任何内容:

$ ipmitool -H 10.5.5.32 -U root -I lanplus chassis restart_cause
System restart cause: unknown
Run Code Online (Sandbox Code Playgroud)

机箱日志中没有任何内容:

$ ipmitool -H 10.5.5.32 -U root -I lanplus sel list
   1 | 07/23/2019 | 06:33:43 | Event Logging Disabled #0x72 | Log area reset/cleared | Asserted
   2 | 07/24/2019 | 09:51:50 | Physical Security #0x73 | General Chassis intrusion () | Asserted
   3 |  Pre-Init  |0000000032| Physical Security #0x73 | General Chassis intrusion () | Asserted
   4 |  Pre-Init  |0000000037| Physical Security #0x73 | General Chassis intrusion () | Deasserted
   5 | 07/24/2019 | 11:29:10 | Physical Security #0x73 | General Chassis intrusion () | Asserted
   6 | 07/24/2019 | 11:29:15 | Physical Security #0x73 | General Chassis intrusion () | Deasserted
Run Code Online (Sandbox Code Playgroud)

这是“最后”命令输出:

$ last -x
user     pts/0        10.5.5.25        Wed Jul 31 08:31 - 09:38  (01:07)
root     ttyS1                         Wed Jul 31 08:23 - 09:38  (01:14)
reboot   system boot  5.2.1-arch1-1-AR Wed Jul 31 08:23 - 09:38  (01:15)
shutdown system down  5.2.1-arch1-1-AR Tue Jul 30 20:17 - 08:23  (12:06)
Run Code Online (Sandbox Code Playgroud)

系统日志中没有任何内容。

我已将内核日志级别设置为调试级别,但在关闭前控制台输出中仅显示一条消息:

reboot: Power down
Run Code Online (Sandbox Code Playgroud)

谁能解释一下“重启:断电”究竟是什么意思?谁或什么原因导致关闭?有没有人有任何想法如何调试这个非常奇怪的问题?

tel*_*coM 5

reboot: Power down可能表示该命令reboot -fp正在正常关闭过程的最后执行。

last -x输出指示关闭可能是有序的。如果当时没有人登录,它可能是由 ACPI 电源按钮事件触发的,即有人按下电源按钮少于 4 秒。

机箱日志表明服务器机箱是在一周左右之前打开的。如果它不是由您完成的,那可能会质疑“没有进行任何更改”的假设。