我在蜂巢中有两个表,具有精确的架构。这两个表都有确切的行数。我需要比较两个表之间的各个列记录。如果特定记录值不匹配,则应将整行作为输出抛出。这些表大约有 358 列和数百万条记录。
这是你可以做的:
使用唯一键连接两个表(我相信你的表中必须有唯一标识符)使用所有列的哈希值在 hive 中使用哈希函数组合来找出差异。查询将如下所示:
select * from tab1 a join tab2 b
using a.id=b.id
where hash(a.col1,a.col2....)<>hash(b.col1,b.col2...);
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
1771 次 |
| 最近记录: |