什么会导致舞台在Spark中重新尝试

Som*_*ame 5 scala apache-spark

我在Spark网页(与yarn一起使用)中具有以下阶段:

在此处输入图片说明

我对Stage 0重试1,重试2 感到惊讶。是什么引起了这种事情?

我试图自己重制它,并杀死CoarseGrainedExecutorBackend了我的一台集群计算机上的所有执行器进程(),但是我得到的只是描述失败的一些任务Resubmitted (resubmitted due to lost executor)

整个阶段重试的原因是什么?我很好奇的是,每个阶段尝试读取的记录数是不同的:

在此处输入图片说明

在此处输入图片说明

注意3011506Attempt 1195907736Attempt 0。阶段重试是否会导致Spark重读两次记录?

Shi*_*arg 6

阶段失败可能是由于 Spark 中的 FetchFailure 造成的

获取失败: Reduce 任务无法执行 shuffle Read,即无法在写入 shuffle map 任务的磁盘上找到 shuffle 文件。

如果 stageFailureCount < maxStageFailures,Spark 将重试该阶段,否则它将中止该阶段和相应的作业。

https://youtu.be/rpKjcMoega0?t=1309