如何将 Prometheus + AlertManager 中的警报添加到某些 Prometheus 作业名称?

Cam*_*ier 1 prometheus prometheus-alertmanager

我为几个团队运行一个 prometheus 实例,我希望能够为各个团队管理的服务器添加警报。

一个例子可能比我能解释的更清楚:

假设 A 团队想要添加一些由 Prometheus 监控的服务器。此外,他们希望在某些情况下(内存不足、停机等)发出警报。

目前,通过我的设置,所有作业名称中的所有服务器都将使用同一组规则进行监视和警报。我想要的是这样的:

Docker 服务器收到警报组 A 的警报
Nginx 服务器收到警报组 B 的警报

我不确定在 Prometheus.yml 和alert.rules.yml 文件中要做什么才能实现此目的。

任何帮助表示赞赏。

Cam*_*ier 5

我最终弄清楚了。

在alertmanager的alert.rules.yml文件中,您可以在“expr”行中指定正则表达式。

例如,如果我想监视服务器“test1”、“test2”、“test3”上的停机时间,您可以执行以下操作:

expr: up{job=~"test1|test2|test3"} == 0
Run Code Online (Sandbox Code Playgroud)