在Grafana中滑动窗口上的Prometheus正常运行时间或SLA百分比

feo*_*eob 5 grafana prometheus promql

我想创建一个Grafana'singlestat'面板,根据是否存在测试失败指标来显示正常运行时间或SLA'百分比'。

我已经有了适合e2e_tests_failure_count不同测试框架的适当指标。这意味着以下查询返回观察到的测试失败的总和:

sum(e2e_tests_failure_count{kubernetes_name=~"test-framework-1|test-framework-2|test-framework-3",kubernetes_namespace="platform-edge"})
Run Code Online (Sandbox Code Playgroud)

我已经设法创建一个图形,如果一切正常,则为“ 1”,如果有任何测试失败,则为“ 0”:

1 - clamp_max(sum(e2e_tests_failure_count{kubernetes_name=~"test-framework-1|test-framework-1|test-framework-1",kubernetes_namespace="platform-edge"}), 1)
Run Code Online (Sandbox Code Playgroud)

在此处输入图片说明

我现在想使用一个百分比值来显示一段时间(例如最近5天)的“正常运行时间”(=环境处于“健康状态”的时间)。例如“ 99.5%”,或更适合屏幕截图的是“ 65%”。

我尝试过这样的事情:

(1 - clamp_max(sum(e2e_tests_failure_count{kubernetes_name=~"service-cvi-e2e-tests|service-svhb-e2e-tests|service-svh-roundtrip-e2e-tests",kubernetes_namespace="platform-edge"}), 1))[5d]
Run Code Online (Sandbox Code Playgroud)

但这只会导致解析器错误。谷歌搜索并没有真正让我进一步,所以我希望可以在这里找到帮助:)

twi*_*mer 5

刚刚弄清楚这一点,我相信它会产生正确的结果。您必须使用记录规则,因为您无法在单个查询中从函数的实例向量结果创建范围向量,正如您已经发现的(您会收到解析错误)。因此,我们将函数结果(将是一个实例向量)记录为一个新的时间序列,并将其用作不同查询中的指标名称,然后您可以在其中添加[5d]以选择一个范围。

我们每分钟对所有服务运行多次测试,并且每个服务(“服务”是一个标签,其中每个服务的名称是标签值)都有不同数量的与之关联的测试,但是如果针对某个服务的任何测试鉴于服务失败,我们认为这是一个“停机时刻”。(给定服务的测试失败次数在带有status="failure"标签值的指标中捕获。)我们将失败次数限制为 1,因此我们的值只有 0 和 1,因此可以转换“失败值时间序列”改为使用不等式运算符和bool修饰符转换为“成功值时间序列” 。(见这个帖子使用的讨论,bool.) 因此,第一个记录指标的结果对于在该刮擦间隔期间所有测试都成功的每个服务为 1,对于该服务至少有一个测试失败的结果为 0。

如果对于任何给定分钟返回的所有值,服务的失败次数 > 0,我们认为该服务在该分钟内“停机”。(因此,如果我们在给定的一分钟内既有失败又有成功,则不算作停机时间。)这就是为什么我们有第二个记录的指标来生成实际的“这一分钟启动”布尔值。第二个记录的指标建立在第一个的基础上,这是可以的,因为 Prometheus 文档说记录的指标在每个组内连续运行。

因此,任何给定持续时间的“正常运行时间”是“这一分钟启动”值(即每分钟上升 1)除以持续时间的总分钟数的总和,无论该持续时间恰好是多少。

由于我们已经定义了一个名为“minute_up_bool”的记录指标,因此我们可以在我们想要的任何范围内创建一个正常运行时间图。(顺便说一句,记录的指标仅在您首次定义后生成,因此您不会将昨天的时间序列数据包含在您今天定义的记录指标中。)这是您可以在 Grafana 中放入的查询以显示正常运行时间百分比过去 5 天的移动窗口:

sum_over_time(minute_up_bool[5d]) * 100 / (5 * 24 * 60)
Run Code Online (Sandbox Code Playgroud)

所以这是我们的录制规则配置:

groups:
- name: uptime
  interval: 1m
  # Each rule here builds on the previous one.
  rules:
  # Get test results as pass/fail => 1/0
  # (label_replace() removes confusing status="failure" label value)
  - record: test_success_bool
    expr: label_replace(clamp_max(test_statuses_total{status="failure"}, 1), "status", "", "", "") != bool 1
  # Get the uptime as 1 minute range where the sum of successes is not zero
  - record: minute_up_bool
    expr: clamp_max(sum_over_time(test_success_bool[1m]), 1)
Run Code Online (Sandbox Code Playgroud)