odi*_*apc 1 hadoop hive apache-pig
我在文件中有两个数据集,其中包含以下数据(每个文件中约500毫安行):
Dataset1:
a1
a2
a3
a4
Dataset2:
a1
a2
Run Code Online (Sandbox Code Playgroud)
我想在Dataset1中找到数据集2中不存在的元素所以,结果应该是:
Dataset3
a3
a4
Run Code Online (Sandbox Code Playgroud)
使用Hadoop的最佳方法是什么?任何与加入相关的机制,或猪,或其他什么?谢谢.
你可以使用HIVE轻松地做到这一点.
1. 创建表
2. 加载数据
3.查询,简单LEFT JOIN:
SELECT Dataset1.a LEFT JOIN Dataset1.a=Dataset2.a WHERE Dataset2.a IS NULL
Run Code Online (Sandbox Code Playgroud)
完成!GL!
| 归档时间: |
|
| 查看次数: |
2515 次 |
| 最近记录: |