如果某个任务失败，是否会重新启动整个作业

Question

如果某个任务失败，是否会重新启动整个作业

Tom*_*Tom 3 apache-flink

我的工作有状态操作员并且还启用了检查点。staful 操作员的任务之一由于某种原因失败，已重新启动并恢复检查点状态。

我想问以下哪一个是重启行为：

仅重新启动并恢复失败的任务
所有操作员（包含失败的任务）的任务都将重新启动并恢复
整个作业重新启动并恢复

Answer 1

Dav*_*son 5

如果一项任务失败，是否会重新启动整个作业？

tldr：对于流作业，答案通常是肯定的，但不一定。

Flink 流作业的恢复涉及将源回退到检查点中记录的偏移量，并将状态重置回仅消耗了这些偏移量之前的数据后的状态。

仅重新启动失败的任务会导致不一致，并且无法提供精确一次语义，除非失败的任务不依赖于任何上游任务，并且没有下游任务依赖于它。

然后，Flink 可以做的是根据故障转移区域恢复状态并重新启动处理，其中考虑了作业图中的这些依赖关系。在流作业的情况下，只有当作业非常并行时，才有可能完成整个作业的恢复和重新启动。因此，在并行作业令人尴尬的情况下，只有失败的区域才会恢复并重新启动（包括从源到接收器的所有子任务），而其他区域则继续运行。

jobmanager.execution.failover-strategy如果设置为，则使用此方法region，这是自 Flink 1.10 以来的默认设置。

要了解更多相关信息，请参阅FLIP-1：任务失败的细粒度恢复和Apache Flink 1.9.0 发布公告，其中介绍了此功能。

归档时间：	5 年，1 月前
查看次数：	1485 次
最近记录：	5 年，1 月前