使用parallelize创建一个键/值对RDD?

Chr*_*now 3 apache-spark pyspark

spark API文档提供了使用parallelize创建RDD的以下定义:

parallelize(c,numSlices = None)

分发本地Python集合以形成RDD.如果输入表示性能范围,建议使用xrange.

>>> sc.parallelize([0, 2, 3, 4, 6], 5).glom().collect()
[[0], [2], [3], [4], [6]]
>>> sc.parallelize(xrange(0, 6, 2), 5).glom().collect()
[[], [0], [], [2], [4]]
Run Code Online (Sandbox Code Playgroud)

我想创建一个键/值对RDD,如何通过并行化来实现这一点?示例输出RDD:

key    |  value
-------+-------
panda  |  0
pink   |  3
pirate |  3
panda  |  1
pink   |  4
Run Code Online (Sandbox Code Playgroud)

Nik*_*ita 6

sc.parallelize([("panda", 0), ("pink", 3)])
Run Code Online (Sandbox Code Playgroud)