这可能是一个非常基本的问题,但我不太熟悉 Nagios 与 Munin 与其他监控工具的确切功能。
假设我们有一个流程,由于一些非常重要的基础设施原因需要每天运行。我们遇到过这样的情况,即流程没有运行或在任何人注意到之前已经停止了数天。
我想建立一个系统,使我能够轻松了解由于某种原因没有进行日常运行的时间。
我可以设置这个过程,在每次成功运行(或每次失败运行)时发送一封电子邮件,但我不相信收到这封电子邮件的人会注意到没有“我很好”的消息。
我所设想的是某种类型的“绊线”服务,这个 VIP(非常重要的进程)可以在每次运行时向其发送状态消息,无论成功与否;如果“tripwire”服务在可配置的时间内没有收到来自 VIP 的任何消息,则它可以向某人发送警报。
(我所设想的与我概述的第一种方法之间的区别是仅在异常情况下发送消息的服务,而不是每天发送状态正常/正常的消息的服务)。
如果 Nagios 在 N 天内没有收到某个服务/设备/进程的消息,是否可以设置它来发送这样的警报?是否有其他工具具有此功能?