Var*_*dan 7 python hadoop mapreduce hadoop-plugins
我在我有两个mapreduce工作的情况下.我更熟悉python并计划用它来编写mapreduce脚本并使用hadoop流.当使用hadoop流时,是否可以方便地将两个作业链接起来?
Map1 - > Reduce1 - > Map2 - > Reduce2
我在java中听说过很多方法可以实现这一点,但是我需要Hadoop流的东西.
小智 4
这是一篇关于如何使用级联和流式传输的精彩博客文章。 http://www.xcombinator.com/2009/11/18/how-to-use-cascading-with-hadoop-streaming/
这里的价值是您可以在同一应用程序中将 java(级联查询流)与自定义流操作混合。我发现这比其他方法要脆弱得多。
请注意,Cascading 中的 Cascade 对象允许您链接多个 Flow(通过上面的博客文章,您的 Streaming 作业将成为 MapReduceFlow)。
免责声明:我是 Cascading 的作者