shuffle hash join 和 sort merge join 到底是如何工作的?

hey*_*you 6 apache-spark

我可以解释广播连接的工作原理,这篇文章很好地解释了它:https ://jaceklaskowski.gitbooks.io/mastering-spark-sql/spark-sql-joins-broadcast.html

但我未能找到一篇文章来解释 shuffle hash join 和 sort merge join 的内部工作原理。

谁能给出这两个的分步算法吗?

Alo*_*lon 7

这是一个很好的材料:

随机散列连接

排序合并连接

请注意,自 Spark 2.3 以来, 的默认值spark.sql.join.preferSortMergeJoin已更改为true