硬件看门狗是否已经在我的 CentOS 服务器上处于活动状态?

Ale*_*ber 5 hardware linux server-crashes watchdog centos6

我以低成本托管服务租用了一台专用服务器(带有 Intel Haswell CPU 和定制硬件),并将其与 CentOS 6.4 / 64 位 Linux(带有库存内核:2.6.32-358.14.1.el6.x86_64)一起使用。

每隔几周它就会挂起,其他客户似乎也有类似的问题。

dmesg我看到的输出中(这里是完整的 dmesg 输出):

CPU0: Intel(R) Core(TM) i7-4770 CPU @ 3.40GHz stepping 03
....
NMI watchdog enabled, takes one hw-pmu counter.
....
iTCO_wdt: Intel TCO WatchDog Timer Driver v1.07rh
iTCO_wdt: Found a Lynx Point TCO device (Version=2, TCOBASE=0x1860)
iTCO_wdt: initialized. heartbeat=30 sec (nowayout=0)
Run Code Online (Sandbox Code Playgroud)

在进程列表中,我看到:

#  ps uawwwx|grep [w]atchdog
root         6  0.0  0.0      0     0 ?        S    Aug22   0:00 [watchdog/0]
root        10  0.0  0.0      0     0 ?        S    Aug22   0:00 [watchdog/1]
root        14  0.0  0.0      0     0 ?        S    Aug22   0:00 [watchdog/2]
root        18  0.0  0.0      0     0 ?        S    Aug22   0:00 [watchdog/3]
root        22  0.0  0.0      0     0 ?        S    Aug22   0:00 [watchdog/4]
root        26  0.0  0.0      0     0 ?        S    Aug22   0:00 [watchdog/5]
root        30  0.0  0.0      0     0 ?        S    Aug22   0:00 [watchdog/6]
root        34  0.0  0.0      0     0 ?        S    Aug22   0:00 [watchdog/7]
Run Code Online (Sandbox Code Playgroud)

这是否意味着,硬件看门狗已经在我的服务器上处于活动状态,并且会在我的机器被冻结后 30 秒内重新启动?

(在 /etc/sysctl.conf 我已经放了kernel.panic=10,这样它就不会再卡在 kdb 控制台中了)。

还是我必须安装并启动 CentOS 软件包watchdog

eww*_*ite 9

嗯,这里有几个问题需要解决......

  • 服务器挂起时会发生什么?屏幕上有什么?日志中有什么?您是否必须与托管服务提供商合作才能重新启动?您可以自行执行重置吗?

  • 您的服务器不应该挂起、停止或崩溃!!在使用低端、DIY 或定制硬件的环境中工作过,我明白服务提供商的目标是削减成本。但是,如果存在稳定性问题,则提供商有责任修复这些问题。构建一个稳定的 Linux 服务器平台并不难。然而,它发生的频率比它应该的要高。如果硬件/软件/操作系统/固件的组合是有害的,那是一个不好的迹象。提供商的运营规模应该能够在问题影响多个客户之前了解问题。

  • 您的硬件是否有 IPMI 设备?你有 IPMI 访问权限吗?通常,看门狗是带外管理设备的一部分。例如,HP ProLiant 服务器设置了自动服务器恢复 (ASR)功能来处理此问题。

  • 您的系统检测到的设备是正在使用的英特尔芯片组的一部分。所以在技术上有一个看门狗设备,并且有通用的内核支持(看起来它在 CentOSPlus 内核中,而不是你拥有的内核)。但是,看门狗包可以作为软件级看门狗,在您可能拥有的硬件挂钩之外提供帮助。

但同样,你在这里治疗症状。找到根本原因很重要。如果其他客户遇到这些问题,您都需要与服务提供商一起解决。


sci*_*rus 6

Linux 有一个通用的看门狗接口。您可以通过启用iTCO_wdt 硬件支持的 NMI 看门狗或安装和配置不依赖于硬件的软件看门狗来使用它。