mapreduce,排序值

Bam*_*ylo 1 java sorting hadoop mapreduce cloudera

我的映射器有一个输出:

Mapper: KEY, VALUE(Timestamp, someOtherAttrbibutes)

Run Code Online (Sandbox Code Playgroud)

我的减速机确实收到了:

Reducer: KEY, Iterable<VALUE(Timestamp, someOtherAttrbibutes)>

Run Code Online (Sandbox Code Playgroud)

我想Iterable<VALUE(Timestamp, someOtherAttrbibutes)>按Timestamp属性排序.有没有可能实现它？

我想避免在Reducer代码中手动排序.http://cornercases.wordpress.com/2011/08/18/hadoop-object-reuse-pitfall-all-my-reducer-values-are-the-same/

我将不得不从Iterable"深度复制"所有对象,这会导致巨大的内存开销.:(((

它相对容易,你需要为你的VALUE班级编写比较器课程.

仔细看看这里:http://vangjee.wordpress.com/2012/03/20/secondary-sorting-aka-sorting-values-in-hadoops-mapreduce-programming-paradigm/特别是在二级分拣部分的解决方案.

归档时间：	12 年，9 月前
查看次数：	6184 次
最近记录：	9 年，7 月前

Java:未解决的编译问题 66

mockito返回值基于参数的属性 53

hadoop map减少二次排序 21

排序对的向量 16

如何对Python列表进行部分排序？ 9

Hadoop Mapreduce错误输入路径不存在:hdfs:// localhost:54310/user/hduser/input" 8

在 avro 模式中使用“默认” 6

HDFS 与 HIVE 分区 5

在对象数组中查找缺失值 2

yii cgridview排序不起作用 1

Flash CS4拒绝放手 2735

在Git中只提交文件的一部分 2629

如何使用Maven创建具有依赖关系的可执行JAR？ 2276

为什么Python 3中的"1000000000000000在范围内(1000000000000001)"如此之快？ 1890

按值对地图<键,值>进行排序 1569

如何修复java.lang.UnsupportedClassVersionError:不支持的major.minor版本 1532

抽象函数和虚函数有什么区别？ 1526

为什么自闭脚本标签不起作用？ 1284

如何在Python中使用线程？ 1210

Python中的null对象？ 1097