如何组合datadog io指标以识别磁盘瓶颈？

Question

如何组合datadog io指标以识别磁盘瓶颈？

我正在尝试在DataDog中创建一个警报,当磁盘性能降低我们的机器时,它会提醒我们.

作为业务要求,我会说如果IO几乎饱和(超过90%)超过30分钟,则应触发警报.

以下是记录的当前指标集: sys.cpu.iowait system.io.avg_q_sz system.io.avg_rq_sz system.io.await system.io.r_await system.io.r_s system.io.rkb_s system.io.rrqm_s system.io.svctm system.io.util system.io.w_await system.io.w_s system.io.wkb_s system.io.wrqm_s

可以使用任何公式来组合这些公式,包括SUM和AVG值.

Answer 1

Leo*_*lle 8

这些system.io指标是从引擎盖下使用的系统代理检查报告iostat的.

根据iostat手册页,其中一个指标%util(system.io.util在Datadog中报告)似乎可以完成这项工作:

%util:向设备发出I/O请求的CPU时间百分比(设备的带宽利用率).当此值接近100%时,会发生设备饱和.

您可以创建一个监视器,作为主机/设备上的多重警报,当此指标平均在过去30分钟内超过90时,以下是此类示例的当前屏幕截图:

当然,还可以监视其他iostat指标,以识别其他I/O性能故障模式.

归档时间：	9 年，9 月前
查看次数：	1953 次
最近记录：	9 年，9 月前