使用Hadoop查找两个数据集的差异

Question

我在文件中有两个数据集,其中包含以下数据(每个文件中约500毫安行):

Dataset1:
a1
a2
a3
a4

Dataset2:
a1
a2

我想在Dataset1中找到数据集2中不存在的元素所以,结果应该是:

Dataset3
a3
a4

使用Hadoop的最佳方法是什么？任何与加入相关的机制,或猪,或其他什么？谢谢.

Answer 1

你可以使用HIVE轻松地做到这一点.
1. 创建表
2. 加载数据
3.查询,简单LEFT JOIN:

SELECT Dataset1.a LEFT JOIN Dataset1.a=Dataset2.a WHERE Dataset2.a IS NULL

完成!GL!