Ana*_*nda 7 hadoop mapreduce oozie
我对Hadoop很新,我目前已经分配了一个项目
"实施高级作业控制框架,以帮助链接多个Map-Reduce作业,即调查/改进现有的org.apache.hadoop.mapred.jobcontrol包."
该项目在http://wiki.apache.org/hadoop/ProjectSuggestions#research_projects上随机创意下的项目建议页面上列出
我的困惑是,我是否必须构建Oozie的高级版本(我认为这是一个链接多个工作的工作控制框架)或类似的东西,或者这意味着完全不同的东西.
我错过了什么?
看起来您所指的项目可能与此Jira票证有关.
现在,JobControl类非常简单,它缺少一些可以让用户的生活更轻松的功能.例如:
JobControl.run就是这样,但实际上如果我能在工作中发生变化时收到通知,那将会很有趣.ControlledJob类中具有最大重试次数参数,并在发送失败通知之前重试该点.最后我认为你不需要重新发明一个全新的框架,这个JobControl类已经提供了一个很好的起点.尝试从用户的角度思考,您可以做些什么来使提交和管理工作变得更容易和更短.这里和门票中的想法只是示例,您可以自由地提出自己的想法.
就Oozie而言,它为您提供了更高的抽象来控制工作流程,但它的设置也更复杂,应该保留用于更复杂的工作.我知道有些人对使用Oozie犹豫不决,因为它增加了应用程序的开销.另一个很大的区别是Oozie是一台服务器而JobControl只是在客户机上运行,这是额外的开销.虽然Oozie以一种方式或另一种方式提供了上面提到的一些功能,但是在我看来,在不需要像Oozie这样的额外工作的情况下保持简单并在客户端机器上运行的能力是您项目的关键.