小编Ken*_*evi的帖子

我对 Python 中的 Apache Spark 比较陌生，这就是我正在尝试做的事情。我输入的数据如下。

上面三个RDD都很大。

我正在尝试将它们转换为稀疏 rdd 矩阵

rdd_mat= ([rdd_row],[rdd_col],[rdd_values])

IE，

rdd_mat=([i1,i2,i3 ..],[j1,j2,j3..], [v1,v2,v3 ..])

我努力了：

zip where rdd_row.zip(rdd_col).zip(rdd_val)

但它最终给出了

[(i1,j1,v1),(i2,j2,v2) ..]

和

rdd1.union(rdd2)

不会创建元组。

非常感谢帮助引导我走向正确的方向！

4
推荐指数

1
解决办法

1585
查看次数

rdd ×1

小编Ken_evi的帖子