abl*_*mit 0 hadoop load-balancing mapreduce
我在Hadoop平台(cloudera发行版)中编写了一个相对简单的map-reduce程序.除常规map-reduce任务外,每个Map&Reduce都会将一些诊断信息写入标准输出.
但是,当我查看这些日志文件时,我发现Map任务在节点之间相对均匀分布(我有8个节点).但是reduce任务标准输出日志只能在一台机器上找到.
我想,这意味着所有的reduce任务最终都会在一台机器上执行,而这是有问题和令人困惑的.
有谁知道这里发生了什么?是配置问题?如何使减少作业均匀分布?
如果映射器的输出都具有相同的键,则它们将被放入单个reducer中.
如果您的作业有多个reducer,但它们都在一台计算机上排队,那么您就遇到了配置问题.
使用Web界面(http://MACHINE_NAME:50030)监视作业并查看它具有的Reducer以及运行它们的机器.可以钻取的其他信息将提供有助于解决问题的信息.
关于您的配置的几个问题:
| 归档时间: |
|
| 查看次数: |
842 次 |
| 最近记录: |