Tig*_*ine 7 monitoring grafana prometheus
我正在运行 Prometheus 来监控我的系统,目前正在构建应用程序级指标。
我遇到的问题是长时间运行的进程。我想知道任何时候有多少个正在运行,但我似乎无法用 Prometheus 找到一个好的解决方案。
这些进程从多个同时接收流量的冗余应用程序异步运行。这些进程运行的时间在 10 分钟到几个小时之间,因此我最初的幼稚方法是每当进程启动时就增加一个计数器,并在进程停止时增加另一个计数器。
我在这里遇到的问题是,当操作员在 Grafana 中启动进程时rate,我看到进程有所增加,但我无法随时监控正在运行的进程数量。
由于两个应用程序正在管理同一进程池,因此我无法真正使用仪表来报告当前正在运行的进程数,因为进程可能会在实例 A 上启动,然后在实例 B(或任何其他正在运行的应用程序实例)上停止)。(并且进程的数量将从共享数据库请求,因此它会被夸大)。
现在我尝试的一种方法是减去started - finished计数器以获取当前正在运行的实例。但是,如果在普罗米修斯抓取指标之前报告进程在某个时刻完成的应用程序将重新启动或终止(因此我将进入 0 不再是基线的状态),那么这将很快失去同步。
关于如何处理这个问题有什么建议吗?