小编Kar*_*-FS的帖子

如何根据 GPU 指标扩展 Azure 的 Kubernetes 服务 (AKS)?

问题

我正在尝试在我的 AKS 集群上实施水平 Pod 自动缩放器 (HPA)。但是,我无法检索 HPA 扩展所需的 GPU 指标(由 Azure 自动生成)。

例子

作为参考,请参阅此示例,其中 HPA 基于targetCPUUtilizationPercentage: 50. 也就是说,HPA 将部署更多/更少的 Pod,以实现所有 Pod 的平均 CPU 利用率的目标。理想情况下,我想用 GPU 实现相同的目标。

设置

我已经部署了一个启用了 Azure Monitor 的 AKS 集群,并且我的节点大小设置为Standard_NC6_Promo- Azure 的 VM 选项,它配备了 Nvidia 的 Tesla K80 GPU。然而,为了利用GPU,必须先安装相应的插件安装到您的群集,如解释在这里。安装此插件后,Azure 会自动收集大量 GPU 指标并记录到名为“InsightsMetrics”的表中(请参阅参考资料)。据我所知,该指标containerGpuDutyCycle最有利于监控 GPU 利用率。

现在的情况

我可以成功地看到安装的插件收集的洞察力指标,其中一个指标是containerGpuDutyCycle.

Azure 门户上 Kubernetes 服务的日志选项卡内的 InsightsMetrics 表

现在如何向我的 HPA 公开/提供此指标?

可能的解决方案

我注意到,如果导航到AKS 群集的“指标”选项卡,则无法检索这些 GPU 指标。我认为这是因为这些 …

metrics gpu kubernetes azure-aks horizontal-pod-autoscaling

3
推荐指数
1
解决办法
732
查看次数