Pyspark RDD首先收集163排

Question

有没有办法获得rdd的前163行而不转换为df？

我尝试了类似的东西newrdd = rdd.take(163),但返回一个列表,并rdd.collect()返回整个rdd.

有没有办法做到这一点？或者如果没有,有没有办法将列表转换为rdd？

Answer 1

它不是很有效但你可以zipWithIndex和filter:

rdd.zipWithIndex().filter(lambda vi: vi[1] < 163).keys()

在实践中更有意义的简单take和parallelize:

sc.parallelize(rdd.take(163))