小编pra*_*air的帖子

当不满足所有选择标准时,Spark 会选择哪个连接?

我们知道在 Spark 中有三种类型的连接——广播连接?随机加入和排序合并加入?

  • 当小表加入大表时?使用广播加入?
  • 当小表比 BroadcastJoinThreshold 大时?使用 Shuffle Join?
  • 当大表加入?和加入键可以排序?使用排序合并加入?

两个大表的join,join key无法排序的情况怎么办?Spark 会选择哪种连接类型?

join apache-spark apache-spark-sql

1
推荐指数
1
解决办法
171
查看次数

标签 统计

apache-spark ×1

apache-spark-sql ×1

join ×1