如果 Kubelet 崩溃或停止报告,如何删除 EKS 托管节点组中的节点?

yam*_*ing 9 autoscaling kubernetes kubelet amazon-eks aws-event-bridge

我将 aws EKS 与托管节点组一起使用。在过去的几周里,我曾两次遇到其中一个节点中的 Kubelet 崩溃或停止向控​​制平面报告的情况。

\n

在这种情况下,我希望自动缩放组将该节点识别为不健康节点,并将其替换。然而,事实并非如此。我通过创建节点并手动停止 Kubelet 重新创建了该问题,请参见下图:

\n

在此输入图像描述

\n

我的第一个想法是创建一个事件总线警报,该警报将触发 lambda 来处理此问题,但我在事件总线的服务列表中找不到 EKS 服务,因此 \xe2\x80\xa6

\n

有谁知道可以帮助解决此问题的工具或配置吗?\n为了明确起见,我正在寻找能够:

\n
    \n
  1. 检测到 kubelet 未连接到控制平面
  2. \n
  3. 删除集群中的节点
  4. \n
  5. 终止EC2
  6. \n
\n

谢谢!!

\n

Jer*_*wan 1

我建议查看节点问题检测器或 Cloudflare 的这篇博客。自动节点运行状况检查的 EKS 路线图存在问题。如果这个问题对你很重要,我会投票。