the*_*ing 7 apache-spark pyspark
如果我有一个密钥/值的RDD(密钥是列索引),是否可以将其加载到数据帧中?例如:
(0,1), (0,1), (0,2), (1,2), (1,10), (1,20), (3,18), (3,18), (3,18)
Run Code Online (Sandbox Code Playgroud)
并使数据框看起来像:
1,2,18
1,10,18
2,20,18
Run Code Online (Sandbox Code Playgroud)
Oli*_*dot 11
是的,这是可能的(使用Spark 1.3.1测试):
>>> rdd = sc.parallelize([(0,1), (0,1), (0,2), (1,2), (1,10), (1,20), (3,18), (3,18), (3,18)])
>>> sqlContext.createDataFrame(rdd, ["id", "score"])
Out[2]: DataFrame[id: bigint, score: bigint]
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
17061 次 |
| 最近记录: |