我们使用 nagios 来监控我们的服务器群,并且通常效果很好。但是,有时 nagios 运行的主机会失去连接几分钟,这让 nagios 相信它监控的所有服务器和服务都已关闭。结果是数百封警报邮件,紧随其后的是数百封恢复邮件。
有没有办法配置 nagios,让它在发布大量警报邮件之前测试自己的连接性?
是的,您可以设置父母和孩子。如果父母失败,则不会发出有关孩子的通知。不过,您确实需要正确设置时间(在 generic_service 和 generic_host 或您使用的任何模板中),因为当服务不再可用时,它需要确定父级已关闭,然后才能为这些服务发送通知。
我所做的是:
# ISP gateway (first in traceroute)
define host {
host_name kpn-gateway
alias KPN Gateway
address 1.2.3.4
use generic-host
notification_period never
parents experia
}
# gateway in datacenter
define host {
host_name duocast-gateway
alias Duocast gateway
address 5.6.7.8
use generic-host
parents kpn-gateway
contact_groups bla
}
# one of the hosts in datacenter.
define host {
host_name brick
alias host.example.com
address a.b.c.d
use generic-linux-host
parents duocast-gateway
contact_groups geborsteldstaal
}
Run Code Online (Sandbox Code Playgroud)