如何最大程度地减少Spark数据帧Join上的重排？

Zer*_*001 6 apache-spark

我有两个这样的数据框

  student_rdf = (studentid, name, ...)
  student_result_rdf = (studentid, gpa, ...)

Run Code Online (Sandbox Code Playgroud)

我们需要加入这两个数据框。我们现在正在这样做，

student_rdf.join(student_result_rdf, student_result_rdf["studentid"] == student_rdf["studentid"])

Run Code Online (Sandbox Code Playgroud)

这样很简单。但是它会在工作节点之间创建大量数据改组，但是由于连接键是相似的，并且如果可以使用该键（studentid）对数据帧（理解partitionkey）进行分区，那么根本就不会进行改组。由于相似的数据将驻留在相似的节点中。可能吗？

当我从输入中读取数据帧时，我正在寻找一种基于列对数据进行分区的方法。并且如果Spark可能理解两个数据帧的两个partitionkey是相似的，那又如何呢？

归档时间：	10 年，9 月前
查看次数：	335 次
最近记录：	10 年，9 月前

用于有效连接Spark数据帧/数据集的分区数据 6

更多相关链接

当值匹配pyspark中字符串的一部分时,过滤df 32

Spark 2.0,DataFrame,过滤字符串列,不等运算符(!==)已弃用 15

错误SparkContext:初始化SparkContext时出错.java.net.BindException:无法分配请求的地址:服务'sparkDriver'失败 13

如何在Scala中的Apache Spark中将数据帧转换为数据集？ 12

使用spark-ec2更改hadoop版本 9

同时使用 SparkR 和 Sparklyr 9

子线程没有看到主线程所做的更新 8

从带有日期的火花数据帧转换为熊猫数据帧时出错 8

spark提交"服务'驱动程序'无法绑定端口"错误 6

Apache Spark是在同一时间读取和处理,还是首先在内存中读取整个文件然后开始转换？ 5

为什么我的JavaScript在所请求的资源上出现"No'Access-Control-Allow-Origin'标头"错误,当Postman没有？ 2320

如何在jQuery中选择具有多个类的元素？ 1985

在Mac上查找(并终止)进程锁定端口3000 1595

对于数组,为什么a [5] == 5 [a]？ 1567

最优雅的方法来检查Python中的字符串是否为空？ 1282

如何按多列对数据帧进行排序？ 1266

如何撤消'git reset'？ 1172

.NET - 枚举的jSON序列化为字符串 1088

Visual Studio中的构建解决方案,重建解决方案和清洁解决方案之间的区别？ 1081

如何从"Bobby Tables"XKCD漫画中注入SQL？ 1070