什么会导致舞台在Spark中重新尝试

Question

我在Spark网页（与yarn一起使用）中具有以下阶段：

我对Stage 0重试1，重试2 感到惊讶。是什么引起了这种事情？

我试图自己重制它，并杀死CoarseGrainedExecutorBackend了我的一台集群计算机上的所有执行器进程（），但是我得到的只是描述失败的一些任务Resubmitted (resubmitted due to lost executor)。

整个阶段重试的原因是什么？我很好奇的是，每个阶段尝试读取的记录数是不同的：

和

注意3011506在Attempt 1和195907736中Attempt 0。阶段重试是否会导致Spark重读两次记录？

Answer 1

阶段失败可能是由于 Spark 中的 FetchFailure 造成的

获取失败： Reduce 任务无法执行 shuffle Read，即无法在写入 shuffle map 任务的磁盘上找到 shuffle 文件。

如果 stageFailureCount < maxStageFailures，Spark 将重试该阶段，否则它将中止该阶段和相应的作业。