SPARK - 为什么 Spark 作业持续时间不等于每个阶段持续时间的总和?

gui*_*cgs 6 apache-spark pyspark

Spark 作业由多个阶段的集合组成......

我预计作业的执行持续时间将等于或至少类似于每个阶段的持续时间之和。

然而,我得到了一个巨大的差异:1,3 分钟 X 3,2 秒

这是正常/可以接受的吗?

在此输入图像描述

Ale*_*kov 8

简而言之,作业执行时间就是一个挂钟时间

这意味着仍然测量时间,但实际上并未计算阶段:集群可能正忙于在作业的阶段之间执行其他任何操作

这也可能在相反的方向上起作用:当多个阶段并行执行时,阶段执行时间的总和可能大于作业执行时间。