如何在Spark(Scala)中组合两个RDD?

tat*_*ler 1 scala apache-spark

所以,假设我有以下两个RDDS :(这些只是每个RDD的前几行)

RDD1集:

Time                   Temp 
2014-08-12 13:20:00    22
2014-08-12 13:21:00    24
2014-08-12 13:24:00    26
2014-08-12 13:26:00    27
2014-08-12 13:28:00    22
Run Code Online (Sandbox Code Playgroud)

RDD2:

Time                   Age 
2014-08-12 13:20:00    45
2014-08-12 13:21:00    45
2014-08-12 13:24:00    46
2014-08-12 13:26:00    37
2014-08-12 13:28:00    122
Run Code Online (Sandbox Code Playgroud)

我想将它们组合起来,以便将RDD2列添加到RDD1中.我不能使用union,因为那只会将RDD2添加到RDD1的底部,而我想将它添加到"side",如果这是有道理的.

Vid*_*dya 5

join会让你加入这些RDD"并排".来自文档:

" 当调用类型为(K,V)和(K,W)的数据集时,返回(K,(V,W))对的数据集以及每个键的所有元素对.通过leftOuterJoin,rightOuterJoin支持外连接和fullOuterJoin. "