什么可能导致 Apache Flink 作业中的屏障对齐持续时间过长?

heq*_*128 3 apache-flink flink-streaming

我在 YARN 上运行我的 Flink 作业,我发现少数子任务的对齐持续时间很长。

什么可能导致这个问题?

heq*_*128 6

对于恰好一次语义,Flink 在接收多个输入流的操作符处对齐流,因此大对齐意味着任务管理器比其他节点晚接收一些障碍。

可以在此处找到有关对齐的文档,并且有一些方法可以监视检查点

更具体地说,原因可能是:

  1. 数据倾斜。大多数数据已发送到大对齐持续时间节点。
  2. 垃圾收集:GC 会极大地影响检查点对齐。
  3. 长状态访问,即需要很长时间才能放入或从状态中获取。对于 RocksDB,检查是否存在索引未命中或缓存未命中问题。
  4. 网络缓冲区问题
  5. 用户代码错误。例如,无限循环或其他问题。