我有一个二维 numpy 数组。如何从矩阵中的每一行都是 rdd 中的条目的位置创建 pyspark rdd?
这样:
rddData.take(1)[0] == list(aaData[0])
Run Code Online (Sandbox Code Playgroud)
aaDatanumpy 二维数组(矩阵)在哪里, rddDatardd 是从哪里创建的aaData?
只是parallelize它:
mat = np.arange(100).reshape(10, -1)
rdd = sc.parallelize(mat)
np.all(rdd.first() == mat[0])
## True
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
7144 次 |
| 最近记录: |