shuffle hash join 和 sort merge join 到底是如何工作的？

hey*_*you 6 apache-spark

我可以解释广播连接的工作原理，这篇文章很好地解释了它：https ://jaceklaskowski.gitbooks.io/mastering-spark-sql/spark-sql-joins-broadcast.html

但我未能找到一篇文章来解释 shuffle hash join 和 sort merge join 的内部工作原理。

谁能给出这两个的分步算法吗？

这是一个很好的材料：

随机散列连接

排序合并连接

请注意，自 Spark 2.3 以来，的默认值spark.sql.join.preferSortMergeJoin已更改为true。

归档时间：	6 年，9 月前
查看次数：	15758 次
最近记录：	3 年，3 月前

如何在Apache Spark应用程序中优化shuffle溢出 39

使用Apache Spark作为Web应用程序的后端 11

使用Maven打包和运行Scala Spark项目 7

pyspark; 检查元素是否在collect_list中 5

在Javardd排序 4

如何使用Spark的Kafka直接流设置消费者群体提交的偏移量？ 4

Spark:创建DataFrame所需的内存是否有点等于输入数据的大小？ 3

如何在Windows机器上为Spark应用程序设置集群环境？ 3

take(10) 与 limit(10).collect() 的性能比较 2

spark sql动态过滤条件 1

如何使用Curl从终端/命令行发布JSON数据到测试Spring REST？ 2606

可以(a == 1 && a == 2 && a == 3)评估为真吗？ 2438

是否有标准函数来检查JavaScript中的null,undefined或blank变量？ 2088

如何修改指定的提交？ 2077

如何解决"断点当前不会被命中.此文档没有加载任何符号." 警告？ 1456

在JavaScript中删除数组元素 - 删除vs splice 1304

如何从git存储库中删除目录？ 1138

如何将参数传递给批处理文件？ 1100

获取插入行的标识的最佳方法是什么？ 1056

Access-Control-Allow-Origin标头如何工作？ 1050