如何将两个RDD合并到一个RDD

Question

如何将两个RDD合并到一个RDD

帮忙，我有两个RDD，我想合并到一个RDD。这是我的代码。

val us1 = sc.parallelize(Array(("3L"), ("7L"),("5L"),("2L")))
val us2 = sc.parallelize(Array(("432L"), ("7123L"),("513L"),("1312L")))

Run Code Online (Sandbox Code Playgroud)

Answer 1

T. *_*ęda 7

只需使用工会：

val merged = us1.union(us2)

Run Code Online (Sandbox Code Playgroud)

文档在这里

Scala中的Shotcut是：

val merged = us1 ++ us2

Run Code Online (Sandbox Code Playgroud)

Answer 2

Ind*_*ain 5

你需要RDD.union这些不要加入一个键。Union 本身并没有真正做任何事情，所以它的开销很低。请注意，合并后的 RDD 将拥有原始 RDD 的所有分区，因此您可能希望在合并后合并。

val x = sc.parallelize(Seq( (1, 3), (2, 4) ))
val y = sc.parallelize(Seq( (3, 5), (4, 7) ))
val z = x.union(y)
z.collect
res0: Array[(Int, Int)] = Array((1,3), (2,4), (3,5), (4,7))

Run Code Online (Sandbox Code Playgroud)

应用程序接口

def++(other: RDD[T]): RDD[T]

Run Code Online (Sandbox Code Playgroud)

返回这个 RDD 和另一个 RDD 的并集。

定义++ API

def union(other: RDD[T]): RDD[T]

Run Code Online (Sandbox Code Playgroud)

返回这个 RDD 和另一个 RDD 的并集。任何相同的元素都会出现多次（使用 .distinct() 来消除它们）。

定义联合 API

归档时间：	9 年前
查看次数：	13380 次
最近记录：	9 年前