Map Reduce Programming中减速器中的混洗和排序阶段的目的是什么？

Question

Map Reduce Programming中减速器中的混洗和排序阶段的目的是什么？

Nit*_*nil 106 sorting hadoop shuffle mapreduce hdfs

在Map Reduce编程中,reduce阶段具有随机,排序和减少作为其子部分.排序是一件昂贵的事情.

Map Reduce Programming中减速器中的混洗和排序阶段的目的是什么？

Answer 1

首先shuffling是将数据从映射器传输到reducer的过程,所以我认为很明显减少器是必要的,否则它们将无法获得任何输入(或来自每个映射器的输入) .即使在地图阶段结束之前,也可以开始改组,以节省一些时间.这就是为什么当地图状态还不是100%时,你可以看到减少状态大于0%(但小于33%).

Sorting节省减速器的时间,帮助它轻松区分新的减速任务何时开始.当分类输入数据中的下一个键与前一个键不同时,它只是简单地启动一个新的reduce任务.每个reduce任务都会获取一个键值对列表,但它必须调用reduce()方法,该方法接受键列表(值)输入,因此必须按键对值进行分组.如果输入数据在映射阶段预先排序(本地)并且在reduce阶段简单地合并排序(因为reducers从许多映射器获取数据),这很容易实现.

Partitioning,你在其中一个答案中提到的,是一个不同的过程.它确定将在哪个reducer中发送(键,值)对,映射阶段的输出.默认的分区程序使用键上的散列将它们分发到reduce任务,但您可以覆盖它并使用您自己的自定义分区程序.

雅虎教程是这些步骤的重要信息来源.

这个的一个很好的图形表示如下(在这个图中shuffle被称为"copy"):

请注意,如果指定零减少器(setNumReduceTasks(0))shuffling,sorting则根本不会执行.然后,MapReduce作业在地图阶段停止,并且地图阶段不包括任何类型的排序(因此即使地图阶段更快).

更新:既然你正在寻找更正式的东西,你也可以阅读Tom White的书"Hadoop:The Definitive Guide".这是你的问题的有趣部分.
自2007年2月以来,Tom White一直是Apache Hadoop的提交者,并且是Apache Software Foundation的成员,所以我想这是非常可靠和正式的......

好吧,我想我已经明白了.我的问题是我忘记了reduce将值列表作为参数而不仅仅是一个键值对.我想你应该在你的答案中详细说明:"每个reduce任务都需要一个键值对列表,但它必须调用reduce方法,它接受一个key-List <value>,所以它必须按键对值进行分组,这很容易如果输入数据在映射器阶段中预先排序" (2认同)