小编Ale*_*nko的帖子

避免在 Spark SQL 中对 GROUP BY 进行洗牌

我想GROUP BY在正确分区上执行一个子句，DataFrame同时按作为分区键的列进行分组。显然，在这种情况下，实际上不需要改组，因为所有相等的键都已经位于相同的分区中。但是，我无法弄清楚如何真正避免这种洗牌以及是否有可能。我在上尝试了分桶和分区选项DataFrameWriter，但随着我继续看到计划中的交流，这些选项似乎没有多大帮助。除了说，还有什么方法可以做类似的事情mapPartitions吗？

sql group-by shuffle bigdata apache-spark

Ale*_*nko

lucky-day

7
推荐指数

0
解决办法

1914
查看次数