Ale*_*ber 5 hardware linux server-crashes watchdog centos6
我以低成本托管服务租用了一台专用服务器(带有 Intel Haswell CPU 和定制硬件),并将其与 CentOS 6.4 / 64 位 Linux(带有库存内核:2.6.32-358.14.1.el6.x86_64)一起使用。
每隔几周它就会挂起,其他客户似乎也有类似的问题。
在dmesg我看到的输出中(这里是完整的 dmesg 输出):
CPU0: Intel(R) Core(TM) i7-4770 CPU @ 3.40GHz stepping 03
....
NMI watchdog enabled, takes one hw-pmu counter.
....
iTCO_wdt: Intel TCO WatchDog Timer Driver v1.07rh
iTCO_wdt: Found a Lynx Point TCO device (Version=2, TCOBASE=0x1860)
iTCO_wdt: initialized. heartbeat=30 sec (nowayout=0)
Run Code Online (Sandbox Code Playgroud)
在进程列表中,我看到:
# ps uawwwx|grep [w]atchdog
root 6 0.0 0.0 0 0 ? S Aug22 0:00 [watchdog/0]
root 10 0.0 0.0 0 0 ? S Aug22 0:00 [watchdog/1]
root 14 0.0 0.0 0 0 ? S Aug22 0:00 [watchdog/2]
root 18 0.0 0.0 0 0 ? S Aug22 0:00 [watchdog/3]
root 22 0.0 0.0 0 0 ? S Aug22 0:00 [watchdog/4]
root 26 0.0 0.0 0 0 ? S Aug22 0:00 [watchdog/5]
root 30 0.0 0.0 0 0 ? S Aug22 0:00 [watchdog/6]
root 34 0.0 0.0 0 0 ? S Aug22 0:00 [watchdog/7]
Run Code Online (Sandbox Code Playgroud)
这是否意味着,硬件看门狗已经在我的服务器上处于活动状态,并且会在我的机器被冻结后 30 秒内重新启动?
(在 /etc/sysctl.conf 我已经放了kernel.panic=10,这样它就不会再卡在 kdb 控制台中了)。
还是我必须安装并启动 CentOS 软件包watchdog?
嗯,这里有几个问题需要解决......
服务器挂起时会发生什么?屏幕上有什么?日志中有什么?您是否必须与托管服务提供商合作才能重新启动?您可以自行执行重置吗?
您的服务器不应该挂起、停止或崩溃!!在使用低端、DIY 或定制硬件的环境中工作过,我明白服务提供商的目标是削减成本。但是,如果存在稳定性问题,则提供商有责任修复这些问题。构建一个稳定的 Linux 服务器平台并不难。然而,它发生的频率比它应该的要高。如果硬件/软件/操作系统/固件的组合是有害的,那是一个不好的迹象。提供商的运营规模应该能够在问题影响多个客户之前了解问题。
您的硬件是否有 IPMI 设备?你有 IPMI 访问权限吗?通常,看门狗是带外管理设备的一部分。例如,HP ProLiant 服务器设置了自动服务器恢复 (ASR)功能来处理此问题。
您的系统检测到的设备是正在使用的英特尔芯片组的一部分。所以在技术上有一个看门狗设备,并且有通用的内核支持(看起来它在 CentOSPlus 内核中,而不是你拥有的内核)。但是,看门狗包可以作为软件级看门狗,在您可能拥有的硬件挂钩之外提供帮助。
但同样,你在这里治疗症状。找到根本原因很重要。如果其他客户遇到这些问题,您都需要与服务提供商一起解决。
| 归档时间: |
|
| 查看次数: |
17558 次 |
| 最近记录: |