如何在 Kubernetes Flink 集群中实现 JobManager 高可用？

Question

Flink 官方文档提供了Standalone 和 Yarn Flink 集群的jobmanager 高可用解决方案。但是使用 Kubernetes Flink 集群应该怎么做才能实现高可用性呢？

从文档的Kubernetes 设置部分来看，我们似乎在部署到 Kubernetes 集群时只部署了一个 Jobmanager。那么Kubernetes Flink集群如何实现HA呢？

Answer 1

该负责人医生说，对于作业管理器的高可用性是对付在作业管理器崩溃的情况。所以只需要一个作业管理器，但你想处理它出现故障的情况。在 Kubernetes 上，如果它出现故障，那么 Kubernetes 应该检测到这一点并自动重新启动它。所以你不需要运行它的更多副本。

（该文档明确说明了将 yarn 用于 ha。它似乎并未针对 Kubernetes说明这一点，但重新启动失败的 Pod 是Kubernetes 的标准行为。）

任务管理器默认配置与官方K8S资源上Kubernetes多个副本运行（见“副本”条目中的资源），但作业管理是没有的。（它在掌舵图中是相同的。）所以我相信作业管理器不需要它 - 我建议使用单个作业管理器运行，除非您遇到特定问题。

@offroff 在这种情况下，听起来作业管理器只是将作业状态存储在 Pod 中，而不是更持久的持久性 - 请参阅 /sf/ask/3647333161/ job-if-jobmanager-crashes/52112538#52112538 (2认同)