whe*_*els 2 python apache-spark rdd pyspark
有没有办法获得rdd的前163行而不转换为df?
我尝试了类似的东西newrdd = rdd.take(163),但返回一个列表,并rdd.collect()返回整个rdd.
有没有办法做到这一点?或者如果没有,有没有办法将列表转换为rdd?
它不是很有效但你可以zipWithIndex和filter:
rdd.zipWithIndex().filter(lambda vi: vi[1] < 163).keys()
Run Code Online (Sandbox Code Playgroud)
在实践中更有意义的简单take和parallelize:
sc.parallelize(rdd.take(163))
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
6457 次 |
| 最近记录: |