Por*_*net 5 linux monitoring debian nagios openvz
我们让 Nagios 在我们的一台服务器上运行一段时间没有任何问题,但最近我们得到了(返回代码 141 超出范围)。
由于我们使用我们的服务上线,服务器上的负载增加了,但它仍然不是很高(负载平均最大值:0.7)。在发布之前,Nagios 中的一切正常。
请参阅图像,当前负载返回代码 141。2 分钟前 Beancounters VZ 返回 141。这种情况不规则发生。只有 HTTP 和 PING 不返回 141,它们不会在 nrpe 上中继。
http://pic-hoster.net/view/45030/ScreenShot2012-05-28at5.31.35PM.png
我注意到,如果我从 Nagios 主机对有问题的客户端执行命令,有时返回会丢失:
root@xxx23:/usr/local/nagios/libexec# ./check_nrpe -H 123.123.123.123 -c check_apt
APT OK: 0 packages available for upgrade (0 critical updates).
root@xxx23:/usr/local/nagios/libexec# ./check_nrpe -H 123.123.123.123 -c check_apt
root@xxx23:/usr/local/nagios/libexec# ./check_nrpe -H 123.123.123.123 -c check_apt
APT OK: 0 packages available for upgrade (0 critical updates).
Run Code Online (Sandbox Code Playgroud)
如果我直接在客户端上执行它,则不会发生这种情况。
我做了什么:
一个月前我在另一台服务器上遇到了同样的问题。还没发现问题,重装了服务器。现在工作。
有人有想法吗?
更新
我想我找到了,已经一个小时没有发生了。
SIGPIPE 是一个很好的提示,我假设系统中有一些东西而不是 nagios。
我调整了 openvz 配置和限制。如果它保持稳定,我会回来报告。
我们曾多次遇到过这个问题;这似乎是由插件意外死亡引起的。
我们采取的行动:
他们之间,这些似乎解决了问题。
| 归档时间: |
|
| 查看次数: |
4650 次 |
| 最近记录: |