尝试在两个查询之间使用 group_left 时出现错误
查询是:
floor(avg_over_time(dcgm_gpu_utilization{cluster_name="researchers"}[5m]) * on (instance) group_left(node) max by (node) (kube_node_labels{label_grid="true"}))
Run Code Online (Sandbox Code Playgroud)
它显示了这个错误:
执行查询时出错:在操作的右侧找到匹配组 {} 的重复序列:[{node="gpu-m-08"}, {node="gpu-l-03"}];many - 不允许一对多匹配:匹配标签一侧必须是唯一的
查询一层输出楼层(avg_over_time(dcgm_gpu_utilization{cluster_name="researchers"}[5m])):
{app="prometheus-node-exporter",chart="prometheus-node-exporter-1.3.0",cluster_name="researchers",gpu="0",heritage="Tiller",instance="172.21.4.101:9100",job="kubernetes-service-endpoints",kubernetes_name="prometheus-node-exporter",kubernetes_namespace="monitoring",release="prometheus-node-exporter",uuid="GPU-92e6ebf6-2b2d-c041-7f70-e16812c0ffa0"}
Run Code Online (Sandbox Code Playgroud)
通过 (node) (kube_node_labels{label_grid="true"})查询两个输出最大值:
{node="gpu-m-08"}
{node="gpu-m-09"}
{node="gpu-m-12"}
Run Code Online (Sandbox Code Playgroud)
我只想查看有问题的查询输出中的节点标签。
顺便说一句,这有效(没有 label_grid=true 标签):
floor(avg_over_time(dcgm_gpu_utilization{cluster_name="researchers"}[5m]) * on (instance) group_left(nodename) node_uname_info)
Run Code Online (Sandbox Code Playgroud)
它将节点名添加到查询输出标签列表中。
主要目标是仅查看带有标签 label_grid="true" 的指标及其节点名称。
RHS 没有instance标签,因此它试图将所有这些系列与 LHS 上的系列相匹配。尝试max by (node, instance) (kube_node_labels{label_grid="true"})
| 归档时间: |
|
| 查看次数: |
18063 次 |
| 最近记录: |