dyw*_*666 5 monitoring prometheus cadvisor prometheus-alertmanager
我对 Prometheus 警报规则有疑问。我设置了各种 cAdvisor 特定警报,例如:
- alert: ContainerCpuUsage
expr: (sum(rate(container_cpu_usage_seconds_total[3m])) BY (instance, name) * 100) > 80
for: 2m
labels:
severity: warning
annotations:
title: 'Container CPU usage (instance {{ $labels.instance }})'
description: 'Container CPU usage is above 80%\n VALUE = {{ $value }}\n LABELS: {{ $labels }}'
Run Code Online (Sandbox Code Playgroud)
当条件满足时,我可以在 Prometheus 的“警报”选项卡中看到警报,但是缺少一些标签,因此不允许 Alertmanager 通过 Slack 发送通知。具体来说,我将自定义“env”标签附加到每个目标:
{
"targets": [
"localhost:8080",
],
"labels": {
"job": "cadvisor",
"env": "production",
"__metrics_path__": "/metrics"
}
}
Run Code Online (Sandbox Code Playgroud)
但是,当基于 cadvisor 指标的警报触发时,标签为:警报名称、实例和严重性 - 无作业标签、无环境标签。来自其他导出器(fe 节点导出器)的所有其他警报都工作正常并且标签存在。
ane*_*yte 14
这是由于sum您使用的功能所致;它收集了所有存在的时间序列,并将它们加在一起,摸索着BY (instance, name)。如果您在 Prometheus 中运行相同的查询,您将看到sum仅留下分组标签:
{instance="foo", name="bar"} 135.38819037447163
Run Code Online (Sandbox Code Playgroud)
其他聚合方法(例如avg、max、min等)以相同的方式工作。要恢复标签,只需添加env到分组列表:by (instance, name, env)。
| 归档时间: |
|
| 查看次数: |
7347 次 |
| 最近记录: |