TL;DR - gke 1.20 可抢占节点导致 Pod 僵尸化并导致失败/关闭
我们已经使用 GKE 几年了,集群中包含稳定节点池和可抢占节点池。最近,自 gke v1.20 以来,我们开始看到抢占的 Pod 进入奇怪的僵尸状态,它们被描述为:
状态:失败
原因: 关机
消息:节点正在关闭,正在驱逐 Pod
当这种情况开始发生时,我们确信这与我们的 Pod 未能在抢占时正确处理 SIGTERM 有关。我们决定通过将服务软件简化为一个大部分处于睡眠状态的简单服务来消除其问题根源:
/* eslint-disable no-console */
let exitNow = false
process.on( 'SIGINT', () => {
console.log( 'INT shutting down gracefully' )
exitNow = true
} )
process.on( 'SIGTERM', () => {
console.log( 'TERM shutting down gracefully' )
exitNow = true
} )
const sleep = ( seconds ) => {
return new Promise( ( resolve ) => …Run Code Online (Sandbox Code Playgroud)在构建GUI时我倾向于使用更暗的颜色方案,而我在Kibana看到的一些更好的屏幕截图支持这一点.现在我们在Kibana 4上踢了轮胎,Vizualizations和仪表板似乎只是浅色背景.是否有一个按钮盯着我,我正在缺少,或者是版本4中没有(还)可用的颜色选择?