我想知道为什么分组比较器用于二级mapreduce.
根据二级分类的权威指南示例
我们希望键的排序顺序是年份(升序),然后是温度(降序):
1900 35°C
1900 34°C
1900 34°C
...
1901 36°C
1901 35°C
Run Code Online (Sandbox Code Playgroud)
通过将分区器设置为按键的年份部分进行分区,我们可以保证同一年的记录转到同一个reducer.然而,这仍然不足以实现我们的目标.分区程序仅确保一个reducer接收一年的所有记录; 它不会改变reducer在分区内按键分组的事实.
既然我们已经编写了自己的分区器来处理特定reducer的map输出键,那么我们为什么要对它进行分组呢.
提前致谢