DAG如何在RDD的幕后工作？

Question

DAG如何在RDD的幕后工作？

sof*_*sof 60 directed-acyclic-graphs apache-spark rdd

在星火研究论文已规定了新的分布式编程模型,相比于传统的Hadoop MapReduce的,声称在许多情况下,特别是机器学习的简化和广阔的性能提升.但是,材料揭开internal mechanics上Resilient Distributed Datasets有Directed Acyclic Graph似乎缺乏本文.

通过调查源代码可以更好地学习吗？

Answer 1

Sat*_*ish 143

即使我一直在网上了解火花如何从RDD计算DAG并随后执行任务.

在高级别,当在RDD上调用任何操作时,Spark会创建DAG并将其提交给DAG调度程序.

DAG调度程序将运算符划分为任务阶段.阶段由基于输入数据的分区的任务组成.DAG调度程序将运营商连接在一起.例如,许多地图运营商可以在一个阶段进行安排.DAG调度程序的最终结果是一组阶段.
阶段传递给任务计划程序.任务计划程序通过集群管理器(Spark Standalone/Yarn/Mesos)启动任务.任务调度程序不知道阶段的依赖性.
Worker在Slave上执行任务.

让我们来看看Spark如何构建DAG.

在高级别,有两种转换可以应用于RDD,即窄转换和广泛转换.宽变换基本上导致阶段边界.

狭窄的转换 - 不需要跨分区混洗数据.例如,地图,过滤等.

广泛的转换 - 要求数据被洗牌,例如,reduceByKey等.

我们举一个例子来计算每个严重级别出现的日志消息数,

以下是以严重性级别开头的日志文件,

INFO I'm Info message
WARN I'm a Warn message
INFO I'm another Info message

Run Code Online (Sandbox Code Playgroud)

并创建以下scala代码以提取相同的,

val input = sc.textFile("log.txt")
val splitedLines = input.map(line => line.split(" "))
                        .map(words => (words(0), 1))
                        .reduceByKey{(a,b) => a + b}

Run Code Online (Sandbox Code Playgroud)

此命令序列隐式定义RDD对象的DAG(RDD沿袭),稍后将在调用操作时使用.每个RDD都维护一个指向一个或多个父项的指针以及有关它与父项的关系类型的元数据.例如,当我们调用val b = a.map()RDD时,RDD b会保留对其父级的引用a,这是一个沿袭.

为了显示RDD的谱系,Spark提供了一种调试方法toDebugString().例如toDebugString(),在splitedLinesRDD 上执行,将输出以下内容:

(2) ShuffledRDD[6] at reduceByKey at <console>:25 []
    +-(2) MapPartitionsRDD[5] at map at <console>:24 []
    |  MapPartitionsRDD[4] at map at <console>:23 []
    |  log.txt MapPartitionsRDD[1] at textFile at <console>:21 []
    |  log.txt HadoopRDD[0] at textFile at <console>:21 []

Run Code Online (Sandbox Code Playgroud)

第一行(从底部)显示输入RDD.我们通过调用创建了这个RDD sc.textFile().下面是从给定RDD创建的DAG图的更多示意图.

RDD DAG图