标签: splitbrain

机架间裂脑场景下 Kubernetes HA 集群故障行为是什么?

我对多主 Kubernetes 在发生不同类型的故障时的行为很感兴趣,特别是当主服务器位于不同的机架上时。

  • 设想:

    • 2 个机架,R1、R2。

    • API 大师:

      • R1 上的 M1,R2 上的 M2。
    • 工作节点:

      • W1 在 R1 上,W2 在 R2 上。
    • 等:

      • 一个完全独立的 HA Etcd 集群,包含 3 个节点(即它不在 API 主节点上运行)。

我的失败问题基本上都是围绕裂脑场景:

如果 M1 是活动主设备并且 R1 失去与 Etcd 和 R2 的连接,但 R2/M2 与 Etcd 具有连接,会发生什么情况?即具体是什么导致了领导层选举?

如果 R1/W1 上有 Pod P1,M1 是活动主设备,并且 R1 与 R2 和 Etcd 断开连接,会发生什么?P1 会继续前进,还是被杀死?M2 是否在 R2 上启动 P (P2) 的单独实例?如果是这样,P1和P2可以同时运行吗?

如果 R2/W2 上有一个 Pod P2,并且 M1 是活动主服务器(即 pod 位于与主服务器不同的机架上),并且 R1 失去了与 R2 和 Etcd 的连接,那么 P2 会发生什么情况?它会继续发展并由 …

openshift etcd kubernetes splitbrain

5
推荐指数
1
解决办法
2965
查看次数

标签 统计

etcd ×1

kubernetes ×1

openshift ×1

splitbrain ×1