一个大的mapreduce作业(加入14个输入目录,总共输入大约14TB)失败.我们不仅不能完成我们的工作.当我们刚刚做了地图是猫/减少是猫,我们甚至无法完成.它似乎停止复制数据.
我们的猜测是,我们正在使用aws提供的hadoop-on-emr容量饱和.不确定我们是在饱和网络,磁盘空间还是什么.我们得到这样的错误
"减少>复制(436333 of 438094,0.10 MB/s)"
在hadoop控制面板上.它只是挂在那里,从未完成副本.另一个理论是,hadoop的离线排序与复制同时发生,并且不知何故这是一个瓶颈.我们已经尝试了更多减速器,更多节点,不同大小的工作箱的各种排列,但不知何故,我们无法找到有效的组合.
由于我们迫切需要完成这项工作,因此我们正在采取一种解决方法,即将数据划分为较小的作业.也就是说,14个输入年份中的每一个都将被拆分,然后我们将加入分区.
有没有人有使用aws托管的hadoop处理这个大小或更大的工作的经验,如果是这样,你能给出建议只是让cat map/cat减少成功吗?像节点数,节点大小和配置选项一样?
否则我想我们只是达到了emr的限制.