Chr*_*now 3 apache-spark pyspark
spark API文档提供了使用parallelize创建RDD的以下定义:
parallelize(c,numSlices = None)
分发本地Python集合以形成RDD.如果输入表示性能范围,建议使用xrange.
Run Code Online (Sandbox Code Playgroud)>>> sc.parallelize([0, 2, 3, 4, 6], 5).glom().collect() [[0], [2], [3], [4], [6]] >>> sc.parallelize(xrange(0, 6, 2), 5).glom().collect() [[], [0], [], [2], [4]]
我想创建一个键/值对RDD,如何通过并行化来实现这一点?示例输出RDD:
key | value
-------+-------
panda | 0
pink | 3
pirate | 3
panda | 1
pink | 4
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
6966 次 |
| 最近记录: |