Apache Spark：重新分区、排序和缓存对连接的影响

Question

Apache Spark：重新分区、排序和缓存对连接的影响

Daw*_*wid 10 bigdata apache-spark pyspark azure-databricks delta-lake

我正在探索将表加入到自身时 Spark 的行为。我正在使用数据块。

我的虚拟场景是：

将外部表读取为数据帧 A（底层文件采用 delta 格式）
将数据框 B 定义为仅选择某些列的数据框 A
在 column1 和 column2 上连接数据框 A 和 B

（是的，这没有多大意义，我只是在尝试了解 Spark 的底层机制）

a = spark.read.table("table") \
.select("column1", "column2", "column3", "column4") \
.withColumn("columnA", lower((concat(col("column4"), lit("_"), col("column5")))))

b = a.select("column1", "column2", "columnA")

c= a.join(b, how="left", on = ["column1", "column2"])

Run Code Online (Sandbox Code Playgroud)

我的第一次尝试是按原样运行代码（尝试 1）。然后我尝试重新分区和缓存（尝试 2）

a = spark.read.table("table") \
.select("column1", "column2", "column3", "column4") \
.withColumn("columnA", lower((concat(col("column4"), lit("_"), col("column5")))))
.repartition(col("column1"), col("column2")).cache()

Run Code Online (Sandbox Code Playgroud)

最后，我重新分区、排序和缓存

 a = spark.read.table("table") \
.select("column1", "column2", "column3", "column4") \
.withColumn("columnA", lower((concat(col("column4"), lit("_"), col("column5")))))
.repartition(col("column1"), col("column2")).sortWithinPartitions(col("column1"), col("column2")).cache()

Run Code Online (Sandbox Code Playgroud)

生成的相应 dag 如下所示。

我的问题是：