将 numpy 矩阵转换为 pyspark rdd

Rom*_*man 4 python pyspark

我有一个二维 numpy 数组。如何从矩阵中的每一行都是 rdd 中的条目的位置创建 pyspark rdd?

这样:

rddData.take(1)[0] == list(aaData[0])
Run Code Online (Sandbox Code Playgroud)

aaDatanumpy 二维数组(矩阵)在哪里, rddDatardd 是从哪里创建的aaData

zer*_*323 5

只是parallelize它:

mat = np.arange(100).reshape(10, -1)
rdd = sc.parallelize(mat)

np.all(rdd.first() == mat[0])
## True
Run Code Online (Sandbox Code Playgroud)