Avi*_*mar 5 apache-spark apache-spark-sql
假设我们有一个健康的集群和我们拥有的用例
两个数据集,包含1个Billlion +记录
我们需要比较两个数据集并找出答案
原始数据集中的重复项
我打算写一个
带有连接的SQL查询,用于检查重复项的列
我想知道将是怎样的
此查询的性能以及优化
可以在加入之前在数据集(数据框分区)中完成.
请注意你的观察.
| 归档时间: |
|
| 查看次数: |
2838 次 |
| 最近记录: |