Spark：将数据帧的每一行与另一个数据帧的所有行连接的方法

Question

Spark：将数据帧的每一行与另一个数据帧的所有行连接的方法

假设我有以下数据框：

val df1 = sc.parallelize(Seq("a1" -> "a2", "b1" -> "b2", "c1" -> "c2")).toDF("a", "b")
val df2 = sc.parallelize(Seq("aa1" -> "aa2", "bb1" -> "bb2")).toDF("aa", "bb")

Run Code Online (Sandbox Code Playgroud)

我想要以下内容：

 | a  | b  | aa  | bb  |
 ----------------------
 | a1 | a2 | aa1 | aa2 |
 | a1 | a2 | bb1 | bb2 |
 | b1 | b2 | aa1 | aa2 |
 | b1 | b2 | bb1 | bb2 |
 | c1 | c2 | aa1 | aa2 |
 | c1 | c2 | bb1 | bb2 |

Run Code Online (Sandbox Code Playgroud)

因此的每一行都df1映射到的所有行df2。我这样做的方式如下：

val df1_dummy = df1.withColumn("dummy_df1", lit("dummy"))
val df2_dummy = df2.withColumn("dummy_df2", lit("dummy"))
val desired_result = df1_dummy
                       .join(df2_dummy, $"dummy_df1" === $"dummy_df2", "left")
                       .drop("dummy_df1")
                       .drop("dummy_df2")

Run Code Online (Sandbox Code Playgroud)

它给出了期望的结果，但似乎有点糟糕。有更有效的方法吗？有什么推荐吗？

Answer 1

Tza*_*har 7

这就是crossJoin目的：

val result = df1.crossJoin(df2)

result.show()
// +---+---+---+---+
// |a  |b  |aa |bb |
// +---+---+---+---+
// |a1 |a2 |aa1|aa2|
// |a1 |a2 |bb1|bb2|
// |b1 |b2 |aa1|aa2|
// |b1 |b2 |bb1|bb2|
// |c1 |c2 |aa1|aa2|
// |c1 |c2 |bb1|bb2|
// +---+---+---+---+

Run Code Online (Sandbox Code Playgroud)

归档时间：	7 年，5 月前
查看次数：	2226 次
最近记录：	7 年，5 月前