我收到了正在删除我的 pod 的 NoExecuteTaintManager 事件,但我不知道为什么。节点运行状况良好,Pod 具有适当的容忍度。
这实际上会导致无限扩展,因为我的 Pod 设置为使用 3/4 节点 CPU,并且容忍宽限期 > 0。这会在 Pod 终止时强制一个新节点。Cluster Autoscaler 尝试保持副本数 == 2。
我如何确定具体是哪个污点造成的?那么为什么它认为该节点有这种污点?目前 Pod 恰好在 600 秒时被杀死(我已将其更改tolerationSeconds为node.kubernetes.io/unreachable和node.kubernetes.io/not-ready),但是该节点似乎没有经历这两种情况。
NAME READY STATUS RESTARTS AGE
my-api-67df7bd54c-dthbn 1/1 Running 0 8d
my-api-67df7bd54c-mh564 1/1 Running 0 8d
my-pod-6d7b698b5f-28rgw 1/1 Terminating 0 15m
my-pod-6d7b698b5f-2wmmg 1/1 Terminating 0 13m
my-pod-6d7b698b5f-4lmmg 1/1 Running 0 4m32s
my-pod-6d7b698b5f-7m4gh 1/1 Terminating 0 71m
my-pod-6d7b698b5f-8b47r 1/1 Terminating 0 27m
my-pod-6d7b698b5f-bb58b 1/1 Running 0 2m29s
my-pod-6d7b698b5f-dn26n 1/1 Terminating 0 …Run Code Online (Sandbox Code Playgroud) 我无法摆脱这种状态:PENDING_INSTALL。这导致 terraform 无法部署。有没有办法不删除?
# helm status core-api
LAST DEPLOYED: Mon Jul 15 14:35:21 2019
NAMESPACE: master
STATUS: PENDING_INSTALL
RESOURCES:
==> v1/Deployment
NAME READY UP-TO-DATE AVAILABLE AGE
core-api 2/2 2 2 2d1h
==> v1/Pod(related)
NAME READY STATUS RESTARTS AGE
core-api-5744cb4c68-fjd6f 1/1 Running 0 3h43m
core-api-5744cb4c68-mwgsw 1/1 Running 0 3h18m
==> v1/Service
NAME TYPE CLUSTER-IP EXTERNAL-IP PORT(S) AGE
core-api LoadBalancer x.x.x.x a4d81902ea72f... 80:31404/TCP,443:32035/TCP 2d1h
Run Code Online (Sandbox Code Playgroud)