我目前正在运行一个 Nagios 实例。有时,我会收到有关超时的错误警报 - 例如,它说某些服务器上的 HTTP 已关闭,但是当我几秒钟后在浏览器中打开它时,它加载速度很快,并且通常没有任何跟踪的错误。
我能做些什么来减少这种误报?
我猜这是因为我的监控服务器上的临时网络问题。我想在不同的网络上设置另一个监控服务器会有很大帮助,但是我如何将它插入 Nagios 呢?
Nagios 是否完全可行,或者我是否必须切换到另一个监控系统?我喜欢我的配置,如果可能的话,我想继续使用 Nagios 或兼容的东西(Icinga?)
提高警报阈值。例如,1 次失败后不报警。在 3 次失败后发出警报,并在重新检查之间设置合理的间隔(1 分钟、2 分钟)。这意味着如果它关闭 4-5 分钟,您将收到通知,而不是如果您的监控服务器上有“暂时性网络问题”。