什么是Spark RDD图,沿袭图,Spark任务的DAG?他们的关系是什么

Rui*_*Rui 8 directed-acyclic-graphs apache-spark rdd

当我们谈论RDD图时,它是指谱系图还是DAG(直接非循环图)或两者兼而有之?什么时候生成了谱系图?它是在Spark任务的DAG之前生成的吗?

Dan*_*bos 8

RDD可以依赖于零个或多个其他RDD.例如,当你说x = y.map(...),x将取决于y.可以将这些依赖关系视为图形.

您可以将此图表称为沿袭图,因为它表示每个RDD的派生.它也必然是DAG,因为循环不可能存在于其中.

狭义的依赖关系,不需要随机播放(思考mapfilter)可以折叠成一个阶段.阶段是执行的单元,它们由DAGSchedulerRDD依赖关系图生成.阶段也相互依赖.的DAGScheduler构建和使用该依赖图(其也是一定是DAG)来调度的各个阶段.