小编K B*_*Ben的帖子

理解谷歌 SRE 书中的一个例子

我目前正在阅读谷歌的 SRE 书,这是一本非常有趣的书。

在第 6 章 - 监控分布式系统中,有一节解释了如何选择合适的度量。

我不明白作者在解释测量粒度很重要时给出的例子。我们可以阅读:

收集 CPU 负载的每秒测量值可能会产生有趣的数据,但收集、存储和分析这种频繁的测量值可能非常昂贵。如果您的监控目标要求高分辨率但不需要极低的延迟,您可以通过在服务器上执行内部采样来降低这些成本,然后配置一个外部系统以随时间或跨服务器收集和聚合该分布。

你可能:

  1. 每秒记录当前的 CPU 利用率。
  2. 使用 5% 粒度的存储桶,每秒增加适当的 CPU 利用率存储桶。
  3. 每分钟汇总这些值。此策略允许您观察短暂的 CPU 热点,而不会因收集和保留而产生非常高的成本。

有人可以解释“5% 粒度”部分吗?

monitoring

3
推荐指数
1
解决办法
143
查看次数

标签 统计

monitoring ×1