Kubernetes 如何计算 HPA 的 CPU 利用率?

Mou*_*una 6 cpu autoscaling kubernetes hpa

我想了解 HPA 如何计算跨 Pod 的 CPU 利用率。

根据此文档,它采用 pod 的平均 CPU 利用率(过去 1 分钟的平均值)除以 pod 请求的 CPU。然后计算所有 Pod 的 CPU 的算术平均值。

不幸的是,该文档包含一些过时的信息,例如--horizontal-pod-autoscaler-sync-period默认设置为 30 秒,但在官方文档中,默认值为 15 秒。

当我测试时,我注意到 HPA 甚至在平均 CPU 达到我设置的阈值(90%)之前就扩展了,这让我认为它可能需要跨 Pod 的最大 CPU 而不是平均值。

在此处输入图片说明

我的问题是在哪里可以找到更新的文档以准确了解 HPA 的工作原理?

Mar*_*oom 5

请注意,我手头没有 Kubernetes 集群,这是基于 k8s 源代码的理论答案。
看看这是否真的符合你的经验。


Kubernetes 是开源的,这里似乎是HPA 代码

函数GetResourceReplicacalcPlainMetricReplicas(对于非利用率百分比)计算给定当前指标的副本数。
两者都使用usageRatio返回的 by GetMetricUtilizationRatio,这个值乘以Replica中当前准备好的 pod 数量,得到新的 pod 数量:

New_number_of_pods = Old_numbers_of_ready_pods * usageRatio
Run Code Online (Sandbox Code Playgroud)

有一个容忍检查(即,如果usageRatio下降足够接近 1,什么都不做)并且挂起和未知状态的 pod 被忽略(被认为使用 0% 的资源)而没有指标的 pod 被认为使用 100%资源的。

usageRatio被计算GetResourceUtilizationRatio传递的度量和的请求(资源)所有的吊舱,它会如下:

utilization = Total_sum_resource_usage_all_pods / Total_sum_resource_requests_all_pods
usageRatio = utilization * 100 / targetUtilization
Run Code Online (Sandbox Code Playgroud)

其中targetUtilization来自HPA规范。
代码比我的这个摘要更容易阅读,在这种情况下,术语请求的意思是“资源请求”(这是一个有根据的猜测)。

所以我会说 90% 是所有 pod的资源使用情况因为它们都是一个单独的 pod,请求每个 pod 的请求总和并收集指标,因为它们都在单个专用节点上运行。


til*_*ill 0

根据https://github.com/kubernetes/kubernetes/issues/78988#issuecomment-502106361,这是配置相关的,并且是指标服务器和 kublet 报告的问题,HPA 应该只使用以下信息: https:// kubernetes.io/docs/tasks/debug-application-cluster/resource-metrics-pipeline/#cpu

我认为持续时间应该由 kubelet 的 --housekeeping-interval 定义,默认为 10 秒