为什么所有减少任务都在一台机器中结束？

Question

我在Hadoop平台(cloudera发行版)中编写了一个相对简单的map-reduce程序.除常规map-reduce任务外,每个Map&Reduce都会将一些诊断信息写入标准输出.

但是,当我查看这些日志文件时,我发现Map任务在节点之间相对均匀分布(我有8个节点).但是reduce任务标准输出日志只能在一台机器上找到.

我想,这意味着所有的reduce任务最终都会在一台机器上执行,而这是有问题和令人困惑的.

有谁知道这里发生了什么？是配置问题？如何使减少作业均匀分布？

Answer 1

如果映射器的输出都具有相同的键,则它们将被放入单个reducer中.

如果您的作业有多个reducer,但它们都在一台计算机上排队,那么您就遇到了配置问题.

使用Web界面(http://MACHINE_NAME:50030)监视作业并查看它具有的Reducer以及运行它们的机器.可以钻取的其他信息将提供有助于解决问题的信息.

关于您的配置的几个问题: