Spark-SQL中的连接性能

Avi*_*mar 5 apache-spark apache-spark-sql

假设我们有一个健康的集群和我们拥有的用例

两个数据集,包含1个Billlion +记录

我们需要比较两个数据集并找出答案

原始数据集中的重复项

我打算写一个

带有连接的SQL查询,用于检查重复项的列

我想知道将是怎样的

此查询的性能以及优化

可以在加入之前在数据集(数据框分区)中完成.

请注意你的观察.

小智 2

这种顺序的数据集的查询性能无法预测,但可以处理。我使用了包含 7 亿条记录的数据集,下面是帮助调整我的应用程序的重要属性。

  • Spark.sql.shuffle.partitions(自己找到最佳位置)
  • Spark.serializer(最好是 KryoSerializer)

为您的应用程序分配集群资源也很重要。请参考这篇博客。谢谢。