Nagios“关键 - 10 秒后套接字超时”问题与服务和主机检查

Question

我们在办公室使用的 Nagios 系统出现了一点问题，该系统最近才开始出现。

我想知道的是解决这个问题的最佳解决方案，因为我对它做了一些阅读，似乎有很多不同的方法可以解决它。

基本上在一天中的随机时间点和随机主机/服务上，我们会收到一个严重警告，指出某些行为不正常，当我们调查 10 次中有 9 次时，我们最终将此作为错误消息。

"SERVICE ALERT: SERVERNAME ;NSClient++ Version;CRITICAL;SOFT;1;CRITICAL - Socket timeout after 10 seconds"

指示服务或主机已超时，我该在哪里设置超时以便停止？我读到一些插件超时低至 10 秒...

谢谢克里斯

Answer 1

通常对于任何服务，如果服务器太忙而无法响应、网络中断等，您有时会收到这些信息。当您收到这些警报时，您可能会尝试查看服务器是否负载不足。

我认为您要查看的主要内容是max_check_attempts与服务或服务模板关联的指令，因此在检查连续几次进入失败/关键状态之前，您不会收到警报。您还check_nt可以使用-t开关调整插件的超时值：

-t, --timeout=INTEGER
   Seconds before connection attempt times out (default: 10)