不能使用不等数量的分区来压缩RDD.我可以用什么作为拉链的替代品?

Mne*_*yne 3 scala zipper apache-spark rdd

我有三个相同大小的RDD rdd1包含一个String标识符,rdd2包含一个向量并rdd3包含一个整数值.

基本上我想将这三个压缩在一起得到一个RDD,RDD[String,Vector,Int]但我不断得到不能用不等数量的分区压缩RDD.我怎样才能完全绕过拉链来做上述事情呢?

小智 6

尝试:

rdd1.zipWithIndex.map(_.swap).join(rdd2.zipWithIndex.map(_.swap)).values
Run Code Online (Sandbox Code Playgroud)