我正在尝试过滤元组的RDD,以根据键值返回最大的N元组.我需要返回格式为RDD.
所以RDD:
[(4, 'a'), (12, 'e'), (2, 'u'), (49, 'y'), (6, 'p')]
Run Code Online (Sandbox Code Playgroud)
过滤掉最大的3个键应该返回RDD:
[(6,'p'), (12,'e'), (49,'y')]
Run Code Online (Sandbox Code Playgroud)
执行a sortByKey()然后take(N)返回值并且不会导致RDD,因此不起作用.
我可以返回所有键,对它们进行排序,找到第N个最大值,然后过滤RDD以获得大于该值的键值,但这似乎非常低效.
最好的方法是什么?