DAG中的ExternalRDDScan是什么?

Alo*_*lon 5 internals directed-acyclic-graphs apache-spark

DAG中的ExternalRDDScan是什么意思?

整个互联网都没有解释。

在此处输入图片说明

maz*_*cha 5

基于ExternalRDDScan表示将现有任意对象的RDD转换为InternalRows 的数据集,即创建一个DataFrame。让我们验证我们的理解是正确的:

scala> import spark.implicits._
import spark.implicits._

scala> val rdd = sc.parallelize(Array(1, 2, 3, 4, 5))
rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[0] at parallelize at <console>:26

scala> rdd.toDF().explain()
== Physical Plan ==
*(1) SerializeFromObject [input[0, int, false] AS value#2]
+- Scan ExternalRDDScan[obj#1]
Run Code Online (Sandbox Code Playgroud)