在Hadoop流中链接多个mapreduce任务

Var*_*dan 7 python hadoop mapreduce hadoop-plugins

我在我有两个mapreduce工作的情况下.我更熟悉python并计划用它来编写mapreduce脚本并使用hadoop流.当使用hadoop流时,是否可以方便地将两个作业链接起来?

Map1 - > Reduce1 - > Map2 - > Reduce2

我在java中听说过很多方法可以实现这一点,但是我需要Hadoop流的东西.

小智 4

这是一篇关于如何使用级联和流式传输的精彩博客文章。 http://www.xcombinator.com/2009/11/18/how-to-use-cascading-with-hadoop-streaming/

这里的价值是您可以在同一应用程序中将 java(级联查询流)与自定义流操作混合。我发现这比其他方法要脆弱得多。

请注意,Cascading 中的 Cascade 对象允许您链接多个 Flow(通过上面的博客文章,您的 Streaming 作业将成为 MapReduceFlow)。

免责声明:我是 Cascading 的作者