小编Bud*_*ric的帖子

未发现目标的 Prometheus 警报规则

我正在尝试编写一个通用规则来在发现的目标丢失时发出警报。特别是使用 kubernetes_sd_configs 为抓取和自动发现注释的 kubernetes pod。

形式的表达式:absent(up{job="kubernetes-pods"}==1)不返回作为正常运行时间序列的一部分可用的任何其他标签。如果一个 pod 被删除(比如错误),它就会作为目标从 prometheus 中消失。触发了基于缺席()的警报,但我没有关于丢失什么 pod 的信息。

我认为自动发现的 kubernetes 服务也会发生同样的情况。如果它被误删除了,它就会作为监视目标消失。我不确定具有 ip 范围的target_groups ( https://prometheus.io/blog/2015/06/01/advanced-service-discovery/ )的行为是否相同- 也就是说,如果物理节点已关闭指标只是停止和上升 == 0 不可用。

以一般方式检测自动发现的目标何时消失的正确方法是什么?或者我是否需要明确地为每个服务/节点/pod 硬编码规则,即使它是自动发现的?

prometheus

7
推荐指数
2
解决办法
5358
查看次数

标签 统计

prometheus ×1