Hadoop一个Map和多个Reduce

Question

我们有一个大型数据集来分析多个reduce函数.

所有reduce算法都在同一个map函数生成的同一数据集上工作.读取大型数据集每次都要花费太多,最好只读取一次并将映射数据传递给多个reduce函数.

我可以用Hadoop做到这一点吗？我搜索过这些例子和intarweb,但我找不到任何解决方案.

Answer 1

也许一个简单的解决方案是编写一个没有reduce函数的作业.因此,您可以将所有映射数据直接传递给作业的输出.您只需将作业的减速器数量设置为零.

然后,您将为每个处理该数据的不同reduce函数编写一个作业.这意味着将所有映射数据存储在HDFS上.

另一种选择可能是将所有reduce函数组合成一个Reducer,它输出到多个文件,为每个不同的函数使用不同的输出.本文为hadoop 0.19提到了多个输出.我很确定在使用0.20.1发布的新mapreduce API中这个功能已被破坏,但你仍然可以在旧的mapred API中使用它.

Answer 2

您是否期望每个减速器都能处理完全相同的映射数据？但至少“key”应该不同，因为它决定使用哪个减速器。

你可以在mapper中多次编写一个输出，并作为key输出（其中$i是第i个reducer，$key是你的原始key）。并且您需要添加一个“Partitioner”以确保这n条记录基于$i分布在reducers中。然后使用“GroupingComparator”按原始$key对记录进行分组。

这是可能的，但在一个 MR 中并不是以一种微不足道的方式做到的。