相关疑难解决方法(0)

用于有效连接Spark数据帧/数据集的分区数据

我需要join基于一些共享键列来组合许多DataFrame.对于键值RDD,可以指定分区器,以便将具有相同键的数据点混洗到同一个执行器,因此加入更有效(如果在之前有一个shuffle相关操作join).可以在Spark DataFrames或DataSet上完成同样的事情吗？

partitioning apache-spark apache-spark-sql spark-dataframe apache-spark-dataset

6
推荐指数

2
解决办法

1万
查看次数

标签统计

apache-spark ×1

apache-spark-dataset ×1

apache-spark-sql ×1

partitioning ×1

spark-dataframe ×1