Spark-SQL中的连接性能

Question

假设我们有一个健康的集群和我们拥有的用例

两个数据集,包含1个Billlion +记录

我们需要比较两个数据集并找出答案

原始数据集中的重复项

我打算写一个

带有连接的SQL查询,用于检查重复项的列

我想知道将是怎样的

此查询的性能以及优化

可以在加入之前在数据集(数据框分区)中完成.

请注意你的观察.

Answer 1

这种顺序的数据集的查询性能无法预测，但可以处理。我使用了包含 7 亿条记录的数据集，下面是帮助调整我的应用程序的重要属性。

为您的应用程序分配集群资源也很重要。请参考这篇博客。谢谢。