基本上我正在寻找相当于 1.x storage.local.target-heap-size 的东西。
我有一个 prometheus 应用程序(在 6 核、32G 的盒子中运行),它从 2000 个虚拟机中提取主机指标。刮痧间隔5分钟。
在几分钟内,我的 RAM 使用量增加到 29-30GB,后来在 10-15 分钟内,它因 OOM 或服务器从 UI 不可用而死亡。
我们可以通过任何方式告诉普罗米修斯使用定义的最大 RAM 吗?
我试图将系统正常运行时间显示为 DD-HH-MM-SS 格式,使用通用代码执行此操作不会有问题,但我仅使用 Prometheus (PromQL) 和 Grafana 执行此操作,这是 PromQL 查询:
time()-process_start_time_seconds{instance="INSTANCE",job="JOB"}
我实现了我想要的基本输出,它向我显示了进程的生命周期。上面查询的输出给出了以秒为单位的时间(例如68003),并将其转换为更大的时间单位(分钟、小时等),但采用十进制形式:
小数点后的89指的是一个小时的89%,约53分钟。这并不是一种真正“直观”的显示时间的方式,我希望它能显示该时间的正常 DD:HH:MM:SS 演示,如以下来自一个简单在线工具的屏幕截图,该工具将秒转换为时间:
有没有办法仅使用 PromQL 和 Grafana 配置来实现它?
我想从我的查询中排除多个应用程序组...不知道如何去做..我的想法是这样的
count(master_build_state{app_group~! "oss-data-repair", "pts-plan-tech-solution", kubernets_namespace = "etc"} ==0)
Run Code Online (Sandbox Code Playgroud)
我不想包含这两个 app_groups,但我不确定如何在 PromQL 中实现。您可能会添加 () 或 [],但它会引发错误。如果有人可以帮忙请告诉我!
谢谢
我们有一个分层prometheus设置与一些服务器刮别人.我们希望让一些服务器从其他服务器中删除所有指标.
目前我们尝试match[]="{__name__=~".*"}"用作度量选择器,但这会产生错误parse error at char 16: vector selector must contain at least one non-empty matcher.
有没有办法从远程prometheus刮掉所有指标而不将每个(前缀)列为匹配选择器?
我有一个带有模板变量的Grafana仪表板services和instances.当我选择一项服务时,如何根据第一个过滤第二个模板变量列表呢?
我在Mac OS X上试用Prometheus.我查看了下载内容并没有直接指示哪个版本适用于Mac.我试过docker在Mac上运行Prometheus.只想在不使用docker的Mac上直接运行它.有谁知道要选择哪个版本.
那里有很少的BSD可供挑选.我知道Mac也是BSD.只要它是bsd,不确定哪一个匹配或无关紧要?
除了那些二进制文件,我认为brew install应该做的工作
我正在使用 Promtail + Loki 来收集我的日志,但我不知道如何对日志文件中的每个错误发出警报。我也在使用 Prometheus、Alertmanager 和 Grafana。我看到有些人已经成功地做到了这一点,但他们都没有解释细节。需要明确的是,我不是在寻找处于 FIRING 状态的警报或具有“警报”状态的 Grafana 仪表板。我所需要的就是每次在我的一个日志中出现错误时都知道。如果不能完全以这种方式完成,下一个最佳解决方案是每 X 秒抓取一次,然后发出类似“6 条新错误消息”的警报。
我有一个 Spring boot 应用程序使用千分尺抛出开放指标统计数据。
对于每个 HTTP 端点,我可以看到以下指标,我认为该指标跟踪给定端点的请求数量:
http_server_requests_seconds_count
我的问题是如何在 Grafana 查询中使用它来显示每分钟调用我的端点的请求数?
我试过
http_client_requests_seconds_count{}
和
sum(rate(http_client_requests_seconds_count{}[1m]))
但两者都不起作用。
提前致谢。
我刚开始使用 prometheus、node exporter 等监控 k8s 集群。
我想知道这些指标的确切含义是什么,尽管指标的名称是自我描述的。
我已经检查了节点导出器的github,但我没有得到有用的信息。
在哪里可以获得节点导出器指标的描述?
谢谢
我尝试从普罗米修斯获取这些测量值:
increase(http_server_requests_seconds_count{uri="myURI"}[10s])increase(http_server_requests_seconds_count{uri="myURI"}[30s])rate(http_server_requests_seconds_count{uri="myURI"}[10s])rate(http_server_requests_seconds_count{uri="myURI"}[30s])然后我运行一个 python 脚本,其中创建了 5 个线程,每个线程都访问此 myURI 端点:
我在 Grafana 上看到的是:
我收到了这些值:
我预计会收到这些(但没有):
有人可以用我的例子解释这个函数背后的公式以及实现我期望的指标/值的方法吗?
prometheus ×10
grafana ×5
micrometer ×2
monitoring ×2
promql ×2
spring ×2
grafana-loki ×1
kubernetes ×1
linux ×1
macos ×1
telemetry ×1