Ash*_*hok 1 hadoop mapreduce map
如何使用hadoop mapreduce程序
在单个文件中消除重复值在输出中我需要唯一的值
例如:在文件
行1:嗨这是Ashok
第2
行:hadoop框架第3行的基础知识:这是Ashok
来自这个例子需要输出唯一的值,即它应该打印第1行和第3行...如何做...
这是没有计数的字数.
执行此操作的典型方法是按整行进行分组,然后仅在减速器中输出密钥.这是一些伪代码:
map(key, value):
emit (value, null)
reducer(key, iterator):
emit (key, null)
Run Code Online (Sandbox Code Playgroud)
请注意,我只是在这里输出值作为映射器中的键.该值可以为null(即,NullWriteable或者您可以只使用整数或其他.).
在减速机中,我不在乎看到了多少,我只输出了钥匙.