我对 Python 中的 Apache Spark 比较陌生,这就是我正在尝试做的事情。我输入的数据如下。
rdd_row是行索引 (i) 的 RDD,rdd_col是列索引 (j) 的 RDD,rdd_values是 Values (v) 的 RDD。上面三个RDD都很大。
我正在尝试将它们转换为稀疏 rdd 矩阵
rdd_mat= ([rdd_row],[rdd_col],[rdd_values])
Run Code Online (Sandbox Code Playgroud)
IE,
rdd_mat=([i1,i2,i3 ..],[j1,j2,j3..], [v1,v2,v3 ..])
Run Code Online (Sandbox Code Playgroud)
我努力了:
zip where rdd_row.zip(rdd_col).zip(rdd_val)
Run Code Online (Sandbox Code Playgroud)
但它最终给出了
[(i1,j1,v1),(i2,j2,v2) ..]
Run Code Online (Sandbox Code Playgroud)
和
rdd1.union(rdd2)
Run Code Online (Sandbox Code Playgroud)
不会创建元组。
非常感谢帮助引导我走向正确的方向!