如何在Hadoop Reduce中获取当前文件名

Question

如何在Hadoop Reduce中获取当前文件名

我正在使用WordCount示例,在Reduce函数中,我需要获取文件名.

public static class Reduce extends MapReduceBase implements Reducer<Text, IntWritable, Text, IntWritable> {
  public void reduce(Text key, Iterator<IntWritable> values, OutputCollector<Text, IntWritable> output, Reporter reporter) throws IOException {
    int sum = 0;
    while (values.hasNext()) {
      sum += values.next().get();
    }
    String filename = ((FileSplit)(.getContext()).getInputSplit()).getPath().getName();
    // ----------------------------^ I need to get the context and filename!
    key.set(key.toString() + " (" + filename + ")");
    output.collect(key, new IntWritable(sum));
  }
}

Run Code Online (Sandbox Code Playgroud)

这是上面修改过的代码,我想要获取要为该单词打印的文件名.我尝试了遵循Java Hadoop:我如何创建作为输入文件的输出器并给出一个输出,即每个文件中的行数？但我无法得到这个context物体.

我是hadoop的新手,需要这个帮助.有帮助吗？

Answer 1

Don*_*ner 4

您无法获取context，因为context是“新 API”的构造，而您正在使用“旧 API”。

请查看这个字数统计示例： http: //wiki.apache.org/hadoop/WordCount

请参阅本例中的reduce函数的签名：

public void reduce(Text key, Iterable<IntWritable> values, Context context)

Run Code Online (Sandbox Code Playgroud)

看！上下文！请注意，在此示例中，它是从导入的，.mapreduce.而不是.mapred..

对于 hadoop 新用户来说，这是一个常见问题，所以不要感到难过。一般来说，您出于多种原因想要坚持使用新 API。但是，请务必小心您找到的示例。另外，要认识到新的 API 和旧的 API 不可互操作（例如，您不能拥有新的 API 映射器和旧的 API 缩减器）。

归档时间：	12 年，2 月前
查看次数：	4981 次
最近记录：	12 年，2 月前