如何在 prometheus 操作员中获得有关配置重新加载器错误的通知或警报?

Flo*_*DJA 2 kubernetes prometheus prometheus-operator prometheus-alertmanager

我使用 prometheus operator 在 kubernetes 上部署监控堆栈。我想知道是否有办法知道配置重新加载器部署的配置是否失败。这对于使用配置重新加载器容器重新加载其配置的普罗米修斯和警报管理器资源是有价值的。当配置失败时。我们在容器中有一个日志,但是我们可以收到基于失败的配置重新加载的通知或警报吗?

Mic*_*bez 5

Prometheus 公开了一个您可以抓取的 /metric 端点​​。特别是,有一个指标指示上次重新加载是否成功:

# HELP prometheus_config_last_reload_successful Whether the last configuration reload attempt was successful.
# TYPE prometheus_config_last_reload_successful gauge
prometheus_config_last_reload_successful 0
Run Code Online (Sandbox Code Playgroud)

您可以使用它来提醒重新加载失败。

groups:
- name: PrometheusAlerts
  rules:
  - alert: FailedReload
    expr: prometheus_config_last_reload_successful == 0
    for: 5m
    labels:
      severity: warning
    annotations:
      description: Reloading Prometheus' configuration has failed for {{$labels.namespace}}/{{ $labels.pod}}.
      summary: Prometheus configuration reload has failed
Run Code Online (Sandbox Code Playgroud)