Lor*_*dor 4 apache-spark apache-spark-sql pyspark
在您尝试过的各种方法中,例如df.select('column').distinct()等df.groupby('column').count(),从列中提取不同值的最有效方法是什么?
这并不重要,正如您在这篇优秀的参考文献中看到的那样:https://www.waitingforcode.com/apache-spark-sql/distinct-vs-group-by-key-difference/read。
这是因为 Apache Spark 有一个称为 ReplaceDistinctWithAggregate 的逻辑优化规则,它将通过聚合转换具有不同关键字的表达式。
DISTINCT 和 GROUP BY 在为列选择唯一值的简单上下文中,以相同的方式执行,即作为聚合。
| 归档时间: |
|
| 查看次数: |
5198 次 |
| 最近记录: |