GKE 集群突然无法自动缩放节点池

Guy*_*Guy 7 kubernetes google-kubernetes-engine

我在 GKE 上有两个用于 CI 运行程序的节点池,工作节点池设置为在 0-40 个节点之间自动缩放。直到昨天,它已经完美工作了约 6 个月,但现在我在nap禁用方面遇到了不一致的错误。

今天早上 Pod 安排良好:

decision: {
  decideTime: "1616746520" // Friday, 26 March 2021 08:15:20 GMT
  scaleUp: {
Run Code Online (Sandbox Code Playgroud)

在某些时候,他们开始失败,因为nap.disabled

noDecisionStatus: {
  measureTime: "1616756707" // Friday, 26 March 2021 11:05:07 GMT
  napFailureReason: {
    messageId: "no.scale.up.nap.disabled"
  }
Run Code Online (Sandbox Code Playgroud)

这在技术上是正确的,因为集群本身禁用了节点自动配置,但节点池workers2具有 0-40 个节点的自动缩放功能。

我似乎找不到任何关于为什么当节点池本身应该扩展时会出现此错误的信息,也看不到 pod 突然不触发节点池自动扩展的任何原因。

我可以在哪里挖掘更多信息或阻止该错误阻止自动缩放?

Guy*_*Guy 1

创建一个新的节点池并销毁旧的节点池似乎已经解决了这个问题,不幸的是没有比这更多的见解了