raj*_*raj 16 java hadoop mapreduce
我是Hadoop的新手.我正在尝试Wordcount程序.
现在尝试多个输出文件,我使用MultipleOutputFormat.这个链接帮助我做到了这一点.http://hadoop.apache.org/common/docs/r0.19.0/api/org/apache/hadoop/mapred/lib/MultipleOutputs.html
在我的司机课上我有
MultipleOutputs.addNamedOutput(conf, "even",
org.apache.hadoop.mapred.TextOutputFormat.class, Text.class,
IntWritable.class);
MultipleOutputs.addNamedOutput(conf, "odd",
org.apache.hadoop.mapred.TextOutputFormat.class, Text.class,
IntWritable.class);`
Run Code Online (Sandbox Code Playgroud)
而我的减少课就变成了这个
public static class Reduce extends MapReduceBase implements
Reducer<Text, IntWritable, Text, IntWritable> {
MultipleOutputs mos = null;
public void configure(JobConf job) {
mos = new MultipleOutputs(job);
}
public void reduce(Text key, Iterator<IntWritable> values,
OutputCollector<Text, IntWritable> output, Reporter reporter)
throws IOException {
int sum = 0;
while (values.hasNext()) {
sum += values.next().get();
}
if (sum % 2 == 0) {
mos.getCollector("even", reporter).collect(key, new IntWritable(sum));
}else {
mos.getCollector("odd", reporter).collect(key, new IntWritable(sum));
}
//output.collect(key, new IntWritable(sum));
}
@Override
public void close() throws IOException {
// TODO Auto-generated method stub
mos.close();
}
}
Run Code Online (Sandbox Code Playgroud)
事情很有效,但我得到了很多文件,(每个地图减少一个奇数和一个偶数)
问题是:我怎么能只有2个输出文件(奇数和偶数),这样每个map-reduce的每个奇数输出都会写入该奇数文件,而偶数也是如此.
每个reducer都使用OutputFormat来写入记录。这就是为什么每个减速器都会获得一组奇数和偶数文件的原因。这是设计使然,以便每个减速器都可以并行执行写入。
如果您只想要一个奇数文件和一个偶数文件,则需要将 mapred.reduce.tasks 设置为 1。但是性能会受到影响,因为所有映射器都将输入到单个减速器中。
另一种选择是更改读取这些文件的进程以接受多个输入文件,或者编写一个单独的进程将这些文件合并在一起。