RDD.union vs SparkContex.union

sds*_*sds 4 apache-spark

有什么区别

reduce(lambda x,y: x.union(y), myRDDlist)
Run Code Online (Sandbox Code Playgroud)

它调用RDD.union

sc.union(myRDDlist)
Run Code Online (Sandbox Code Playgroud)

哪个调用SparkContext.union

他们编译成相同的代码吗?

小智 7

如果你有两个RDD,SparkContext.unionRDD.union是等价的.

减少RDD列表并调用RDD.union将导致多个嵌套的UnionRDD(彼此引用),其中对SparkContext.union的调用将仅导致单个UnionRDD.