让我举一个简单的例子来解释我想要做什么。假设我们有两个非常简单的数据框,如下所示:
\n\nDf1\n+---+---+---+\n| a1| a2| a3|\n+---+---+---+\n| 2| 3| 7|\n| 1| 9| 6|\n+---+---+---+\n\nDf2\n+---+---+\n| b1| b2|\n+---+---+\n| 10| 2|\n| 9| 3|\n+---+---+\nRun Code Online (Sandbox Code Playgroud)\n\n从 df1、df2,我们需要创建一个新的 df,其中的列是 df1、df2 中原始列的笛卡尔积。特别是,新的 df 将具有 \xe2\x80\x98a1b1\xe2\x80\x99,\xe2\x80\x99a1b2\xe2\x80\x99,\xe2\x80\x99a2b1\xe2\x80\x99,\xe2\x80 \x99a2b2\xe2\x80\x99,\xe2\x80\x99a3b1\xe2\x80\x99,\xe2\x80\x99a3b2\xe2\x80\x99,行将是 df1、df2 中相应列的乘法。结果 df 应如下所示:
\n\nDf3\n+----+----+----+----+----+----+\n|a1b1|a1b2|a2b1|a2b2|a3b1|a3b2|\n+----+----+----+----+----+----+\n| 20| 4| 30| 6| 70| 14|\n| 9| 3| 81| 27| 54| 18|\n+----+----+----+----+----+----+\nRun Code Online (Sandbox Code Playgroud)\n\n我搜索了 Spark 在线文档以及此处发布的问题,但似乎它们都是关于行的笛卡尔积,而不是列。例如,rdd.cartesian()提供row中不同值组合的笛卡尔积,如下代码:
\n\nr = sc.parallelize([1, 2])\nr.cartesian(r).toDF().show()\n\n+---+---+\n| _1| _2|\n+---+---+\n| 1| 1|\n| 1| 2|\n| 2| 1|\n| 2| 2|\n+---+---+\nRun Code Online (Sandbox Code Playgroud)\n\n但这不是我需要的。同样,我需要创建新的列而不是行。在我的问题中,行数将保持不变。我明白udf最终可以解决问题。然而,在我的实际应用程序中,我们有巨大的数据集,创建所有列需要很长时间(大约 500 个新列作为所有可能的列组合)。我们更喜欢进行某种向量运算,这可以提高效率。我可能是错的,但 Spark udf 似乎是基于行操作,这可能是为什么花了这么长时间才能完成的原因。
\n\n非常感谢您的任何建议/反馈/评论。
\n\n为了您的方便,我在此处附加了简单的代码来创建上面所示的示例数据框:
\n\ndf1 = sqlContext.createDataFrame([[2,3,7],[1,9,6]],['a1','a2','a3'])\ndf1.show()\n\ndf2 …Run Code Online (Sandbox Code Playgroud)