当数据帧由单列分区时，多列上的高效 Spark 左连接

tih*_*iho 6 left-join database-partitioning dataframe apache-spark apache-spark-sql

我有两个大数据框df1并按df2列分区a，我想有效地计算两a列和另一列的左连接b：

df1.join(df2, on=['a', 'b'], how='left_outer')

当如上编写时，Spark 通过 key 重新排列两个数据帧(a, b)，这是非常低效的。相反，我希望它利用现有的分区a来避免混洗（在每个分区内执行连接），这应该快得多（特别是因为我有进一步的处理步骤可以从这种分区中受益）。

有什么方法可以防止这种洗牌并获得由分区的结果数据帧a？

请注意，如果它是内部连接，我可以执行以下操作，但是 (1) 我不确定它是否有效，并且无论如何 (2) 它不适用于左连接（我只提供以防万一它会帮助别人）：

df1.join(df2, on=['a'], how='inner').filter(df1.b == df2.b)

PS：两个数据帧都太大无法广播

归档时间：	7 年，6 月前
查看次数：	752 次
最近记录：	7 年，6 月前

高效的pyspark加入 3

更多相关链接

按行列出data.frames的快速矢量化合并 49

有没有办法使用 Pandas Dataframes 在 Excel 中设置敏感度标签？ 8

Spark Shell - __spark_libs__.zip不存在 7

Spark2.2.1兼容Jackson版本2.8.8 7

Graphx:是否可以在不接收消息的情况下在每个顶点上执行程序？ 7

如何保留 Spark HashingTF() 函数的输入键或索引？ 5

Pandas - 使用整数数组从字典中只创建一行数据帧 5

是否可以使用 YARN 容量调度程序在 Spark 上运行 Hive？ 5

作为spark作业提交时,Spark RDD映射中的NullPointerException 4

异常：在 Python 中创建 Spark 会话时，Java 网关进程在向驱动程序发送其端口号之前退出 3

为什么HTML认为"chucknorris"是一种颜色？ 7264

数据库索引如何工作？ 2335

如何格式化Microsoft JSON日期？ 1954

HTML中id属性的有效值是什么？ 1945

如何检查字符串"StartsWith"是否是另一个字符串？ 1660

Android Studio中的Gradle是什么？ 1257

选择每个GROUP BY组中的第一行？ 1205

如何使用Windows开发机器为iPhone开发？ 1161

angular-route和angular-ui-router之间有什么区别？ 1064

如何在Java中创建通用数组？ 1045