如何在pyspark中查看RDD中每个分区的内容？

Question

我想更多地了解pyspark如何分区数据.我需要一个这样的功能:

a = sc.parallelize(range(10), 5)
show_partitions(a)

#output:[[0, 1], [2, 3], [4, 5], [6, 7], [8, 9]] (or however it partitions)

Answer 1

该格莱姆教授功能是你在找什么:

glom(self):返回通过将每个分区中的所有元素合并为一个列表而创建的RDD.

a = sc.parallelize(range(10), 5)
a.glom().collect()
#output:[[0, 1], [2, 3], [4, 5], [6, 7], [8, 9]]