Ale*_*nko 7 sql group-by shuffle bigdata apache-spark
我想GROUP BY在正确分区上执行一个子句,DataFrame同时按作为分区键的列进行分组。显然,在这种情况下,实际上不需要改组,因为所有相等的键都已经位于相同的分区中。但是,我无法弄清楚如何真正避免这种洗牌以及是否有可能。我在 上尝试了分桶和分区选项DataFrameWriter,但随着我继续看到计划中的交流,这些选项似乎没有多大帮助。除了说,还有什么方法可以做类似的事情mapPartitions吗?
| 归档时间: |
|
| 查看次数: |
1914 次 |
| 最近记录: |