哪个关键类适合二级排序?

Nie*_*jes 5 java sorting hadoop mapreduce

在Hadoop中,您可以使用辅助排序机制在将值发送到reducer之前对值进行排序.

在Hadoop中完成此操作的方法是添加值以按键排序,然后使用一些自定义组和键比较方法挂钩到排序系统.

所以你需要一个基本上由真实密钥和要排序的值组成的密钥.为了使这个性能足够快,我需要一种创建复合键的方法,该复合键也很容易分解为组和键比较方法所需的单独部分.

最聪明的方法是做到这一点.是否有一个"开箱即用"的Hadoop类可以帮助我,或者我是否必须为每个map-reduce步骤创建一个单独的键类?

如果密钥实际上是由多个部分组成的复合(由于分区也需要单独使用),我该怎么做?

你们推荐什么?

PS我想添加标签"secondary-sort"但我还没有足够的代表这样做.

Kap*_*l D 0

我无法理解这个问题。我确实有一个工作副本SecondarySort,它打印值列表中的最大值。

https://github.com/kapild/hadoop-examples/tree/master/src/SecondarySort