小编Ken*_*evi的帖子

如何将三个RDD加入到一个元组中?

我对 Python 中的 Apache Spark 比较陌生,这就是我正在尝试做的事情。我输入的数据如下。

  • rdd_row是行索引 (i) 的 RDD,
  • rdd_col是列索引 (j) 的 RDD,
  • rdd_values是 Values (v) 的 RDD。

上面三个RDD都很大。

我正在尝试将它们转换为稀疏 rdd 矩阵

rdd_mat= ([rdd_row],[rdd_col],[rdd_values])
Run Code Online (Sandbox Code Playgroud)

IE,

rdd_mat=([i1,i2,i3 ..],[j1,j2,j3..], [v1,v2,v3 ..])
Run Code Online (Sandbox Code Playgroud)

我努力了:

zip where rdd_row.zip(rdd_col).zip(rdd_val) 
Run Code Online (Sandbox Code Playgroud)

但它最终给出了

[(i1,j1,v1),(i2,j2,v2) ..]
Run Code Online (Sandbox Code Playgroud)

rdd1.union(rdd2) 
Run Code Online (Sandbox Code Playgroud)

不会创建元组。

非常感谢帮助引导我走向正确的方向!

python tuples apache-spark rdd pyspark

4
推荐指数
1
解决办法
1585
查看次数

标签 统计

apache-spark ×1

pyspark ×1

python ×1

rdd ×1

tuples ×1