可扩展地监控电子邮件警报

Dom*_*Dom 3 email cloud monitoring logging alerts

任何人都知道一种可扩展地监视电子邮件警报的方法吗?

对于我的许多现场服务,我让他们通过电子邮件告诉我关键任务的成功(和失败)。我将成功通过电子邮件发送给它的原因是有时失败的本质是服务无法通过电子邮件发送失败警报。

不幸的是,这不能扩展,我现在收到了太多警报,我并没有真正监控它们,但我无法在失败时发出警报,因为这在过去太不可靠了。

理想情况下,我想要的是云服务(或邮箱),类似于 Pingdom,我也可以发送/转发这些警报,当它收到失败警报或缺少成功警报时,它会通过电子邮件/短信给我。

谁有想法?

vor*_*aq7 10

您提议的是有效地重新实施您的监控系统(通过将当前系统的警报输入另一个监控系统,该系统足够聪明,如果不能一直确保一切正常,就会知道出现问题)。

这几乎肯定不是您所需要的。您需要的是现场和非现场监控的组合,当出现故障时(通常来自内部系统,或者如果由于某种原因内部系统出现故障,则来自外部系统)可靠地向您发送故障警报。


请记住以下监控系统公理:

没有充分的理由对成功发出警告。

成功警报是监控系统最常见的业余配置错误。
监控系统应该提醒您需要采取行动的事情。

根据定义,成功不是需要采取行动的事件,因此不应生成警报。
根据定义,不成功是“失败”,因此应生成可操作的失败警报。

发送“一切正常”状态消息最终会训练人们忽略来自监控系统的消息(因为大多数时候不需要任何操作)。您希望监控警报是激发人们采取行动的令人震惊的事件,而不是由于肌肉记忆而从收件箱中删除的常规滋扰。

  • 避免收到成功消息的技巧是让您的任务在正确运行后写入/更新某种状态。然后在监控系统中建立检查以确保状态文件最近已更新并包含正确的结果。 (2认同)