硬件看门狗是否已经在我的 CentOS 服务器上处于活动状态？

Question

硬件看门狗是否已经在我的 CentOS 服务器上处于活动状态？

Ale*_*ber 5 hardware linux server-crashes watchdog centos6

我以低成本托管服务租用了一台专用服务器（带有 Intel Haswell CPU 和定制硬件），并将其与 CentOS 6.4 / 64 位 Linux（带有库存内核：2.6.32-358.14.1.el6.x86_64）一起使用。

每隔几周它就会挂起，其他客户似乎也有类似的问题。

在dmesg我看到的输出中（这里是完整的 dmesg 输出）：

CPU0: Intel(R) Core(TM) i7-4770 CPU @ 3.40GHz stepping 03
....
NMI watchdog enabled, takes one hw-pmu counter.
....
iTCO_wdt: Intel TCO WatchDog Timer Driver v1.07rh
iTCO_wdt: Found a Lynx Point TCO device (Version=2, TCOBASE=0x1860)
iTCO_wdt: initialized. heartbeat=30 sec (nowayout=0)

Run Code Online (Sandbox Code Playgroud)

在进程列表中，我看到：

#  ps uawwwx|grep [w]atchdog
root         6  0.0  0.0      0     0 ?        S    Aug22   0:00 [watchdog/0]
root        10  0.0  0.0      0     0 ?        S    Aug22   0:00 [watchdog/1]
root        14  0.0  0.0      0     0 ?        S    Aug22   0:00 [watchdog/2]
root        18  0.0  0.0      0     0 ?        S    Aug22   0:00 [watchdog/3]
root        22  0.0  0.0      0     0 ?        S    Aug22   0:00 [watchdog/4]
root        26  0.0  0.0      0     0 ?        S    Aug22   0:00 [watchdog/5]
root        30  0.0  0.0      0     0 ?        S    Aug22   0:00 [watchdog/6]
root        34  0.0  0.0      0     0 ?        S    Aug22   0:00 [watchdog/7]

Run Code Online (Sandbox Code Playgroud)

这是否意味着，硬件看门狗已经在我的服务器上处于活动状态，并且会在我的机器被冻结后 30 秒内重新启动？

（在 /etc/sysctl.conf 我已经放了kernel.panic=10，这样它就不会再卡在 kdb 控制台中了）。

还是我必须安装并启动 CentOS 软件包watchdog？

Answer 1

eww*_*ite 9

嗯，这里有几个问题需要解决......

服务器挂起时会发生什么？屏幕上有什么？日志中有什么？您是否必须与托管服务提供商合作才能重新启动？您可以自行执行重置吗？
您的服务器不应该挂起、停止或崩溃！！在使用低端、DIY 或定制硬件的环境中工作过，我明白服务提供商的目标是削减成本。但是，如果存在稳定性问题，则提供商有责任修复这些问题。构建一个稳定的 Linux 服务器平台并不难。然而，它发生的频率比它应该的要高。如果硬件/软件/操作系统/固件的组合是有害的，那是一个不好的迹象。提供商的运营规模应该能够在问题影响多个客户之前了解问题。
您的硬件是否有 IPMI 设备？你有 IPMI 访问权限吗？通常，看门狗是带外管理设备的一部分。例如，HP ProLiant 服务器设置了自动服务器恢复 (ASR)功能来处理此问题。
您的系统检测到的设备是正在使用的英特尔芯片组的一部分。所以在技术上有一个看门狗设备，并且有通用的内核支持（看起来它在 CentOSPlus 内核中，而不是你拥有的内核）。但是，看门狗包可以作为软件级看门狗，在您可能拥有的硬件挂钩之外提供帮助。

但同样，你在这里治疗症状。找到根本原因很重要。如果其他客户遇到这些问题，您都需要与服务提供商一起解决。

Answer 2

sci*_*rus 6

Linux 有一个通用的看门狗接口。您可以通过启用iTCO_wdt 硬件支持的 NMI 看门狗或安装和配置不依赖于硬件的软件看门狗来使用它。

归档时间：	12 年，6 月前
查看次数：	17558 次
最近记录：	9 年，8 月前