prometheus 查询连续正常运行时间

Nod*_*hoo 1 metrics continuous prometheus

我是 prometheus 的新手,一直在尝试找出正确的查询,以获得我的服务的最后连续正常运行时间。

例如,如果当前时间是 0:01:20,我的服务在 0:00:00 启动,在 0:01:01 关闭并在 0:01:10 再次启动,我想看到“10 秒”的正常运行时间。

我主要关注“up{}”指标,并可能将其与函数(changes()、rate() 等)结合起来,但到目前为止还没有运气。我也没有看到任何其他类似于“up”的普罗米修斯指标。

Ela*_*mit 5

问题是您需要一些信息来说明您的服务何时实际启动与节点是否已启动:)
我们使用以下内容(我希望有人会有所帮助或每个人的一般想法):
1. 当我们查看主机时我们使用node_time{...} - node_boot_time{...}
2. 当我们查看特定的进程/容器(在我们的例子中是通过 cadvisor 的 docker)时,我们使用node_time{...} - on(instance) group_right container_start_time_seconds{name=~"..."}) by(name,instance)