Som*_*ame 5 scala apache-spark
我在Spark网页(与yarn一起使用)中具有以下阶段:
我对Stage 0重试1,重试2 感到惊讶。是什么引起了这种事情?
我试图自己重制它,并杀死CoarseGrainedExecutorBackend了我的一台集群计算机上的所有执行器进程(),但是我得到的只是描述失败的一些任务Resubmitted (resubmitted due to lost executor)。
整个阶段重试的原因是什么?我很好奇的是,每个阶段尝试读取的记录数是不同的:
和
注意3011506在Attempt 1和195907736中Attempt 0。阶段重试是否会导致Spark重读两次记录?
阶段失败可能是由于 Spark 中的 FetchFailure 造成的
获取失败: Reduce 任务无法执行 shuffle Read,即无法在写入 shuffle map 任务的磁盘上找到 shuffle 文件。
如果 stageFailureCount < maxStageFailures,Spark 将重试该阶段,否则它将中止该阶段和相应的作业。
https://youtu.be/rpKjcMoega0?t=1309