避免在 Spark SQL 中对 GROUP BY 进行洗牌

Ale*_*nko 7 sql group-by shuffle bigdata apache-spark

我想GROUP BY在正确分区上执行一个子句，DataFrame同时按作为分区键的列进行分组。显然，在这种情况下，实际上不需要改组，因为所有相等的键都已经位于相同的分区中。但是，我无法弄清楚如何真正避免这种洗牌以及是否有可能。我在上尝试了分桶和分区选项DataFrameWriter，但随着我继续看到计划中的交流，这些选项似乎没有多大帮助。除了说，还有什么方法可以做类似的事情mapPartitions吗？

归档时间：	7 年，9 月前
查看次数：	1914 次
最近记录：	7 年，9 月前

Spark知道DataFrame的分区键吗？ 14

Spark知道DataFrame的分区键吗？ 14

更多相关链接

连续行之间的日期差异 34

编写SQL Server数据库中的所有数据 24

仅使用空白替换空值 17

需要在C#中获取SQL Server"PRINT"值 15

Oracle SQL:将时间戳转换为UTC 13

Kryo序列化程序在底层Scala类WrappedArray上导致异常 6

Spark：不支持的文字类型类 scala.collection.immutable.Nil$ List() 3

如何在 Spark 的逻辑回归分类器中将多个列作为特征传递？ 2

在DataFrame.withColumn中，如何使用列的值作为第二个参数的条件？ 1

随机排列列表<object> 0

为什么Java的+ =, - =,*=,/ =复合赋值运算符需要转换？ 3547

在vi中快速缩进多行 2111

找到已安装的npm软件包的版本 2037

如何访问环境变量值？ 1878

确定对象的类型？ 1700

如何在Python中追加文件？ 1446

在JavaScript对象数组中按id查找对象 1435

没有指定分支的"git push"的默认行为 1339

修复一个Git分离的头？ 1318

SOAP与REST(差异) 1206