有没有可能将mapper的部分发送到reducer,而只是将另一部分写入HDFS,在hadoop中?

Mah*_*nan 6 hadoop mapreduce

我想将mapper输出的一部分写入文件夹,比如HDFS中的文件夹A. 输出的另一部分,我希望它由reducer处理.这可能吗?我知道多输出.这可能使用多个输出吗?

谢谢!

rys*_*sov 7

是的,可以使用MultipleOutputs,根据文档,在映射阶段通过MultipleOutputs传递的任何输出都被reducer忽略,所以这正是你想要的.我在GitHub上写了一个小例子,我希望你会发现它很有用.