相关疑难解决方法(0)

从SPARK中的另一个RDD返回最大N值的RDD

我正在尝试过滤元组的RDD,以根据键值返回最大的N元组.我需要返回格式为RDD.

所以RDD:

[(4, 'a'), (12, 'e'), (2, 'u'), (49, 'y'), (6, 'p')]
Run Code Online (Sandbox Code Playgroud)

过滤掉最大的3个键应该返回RDD:

[(6,'p'), (12,'e'), (49,'y')]
Run Code Online (Sandbox Code Playgroud)

执行a sortByKey()然后take(N)返回值并且不会导致RDD,因此不起作用.

我可以返回所有键,对它们进行排序,找到第N个最大值,然后过滤RDD以获得大于该值的键值,但这似乎非常低效.

最好的方法是什么?

python apache-spark rdd pyspark

2
推荐指数
1
解决办法
1427
查看次数

标签 统计

apache-spark ×1

pyspark ×1

python ×1

rdd ×1