如何使用hadoop mapreduce程序在单个文件中删除重复值

Question

如何使用hadoop mapreduce程序

在单个文件中消除重复值在输出中我需要唯一的值

例如:在文件

行1:嗨这是Ashok

第2

行:hadoop框架第3行的基础知识:这是Ashok

来自这个例子需要输出唯一的值,即它应该打印第1行和第3行...如何做...

Answer 1

这是没有计数的字数.

执行此操作的典型方法是按整行进行分组,然后仅在减速器中输出密钥.这是一些伪代码:

map(key, value):
   emit (value, null)

reducer(key, iterator):
   emit (key, null)

请注意,我只是在这里输出值作为映射器中的键.该值可以为null(即,NullWriteable或者您可以只使用整数或其他.).

在减速机中,我不在乎看到了多少,我只输出了钥匙.