A Mapper并不真正知道在哪里发送数据,它主要关注两件事:
Reducer它将被发送到的输出密钥.从那里Reducer开始,它将继续向作业跟踪器询问与其分区相对应的地图输出,直到它全部检索到它们为止.每当地图输出可用时,reduce任务将开始复制它,并在复制时逐渐合并.
如果仍然不清楚,我会建议查看有关Hadoop的参考书,其中有一章描述了这一部分,这里是从中提取的一个模式,它可以帮助你想象在shuffle步骤中发生的事情:

| 归档时间: |
|
| 查看次数: |
128 次 |
| 最近记录: |