从 Spark 数据框中选择不同值的最有效方法是什么?

Lor*_*dor 4 apache-spark apache-spark-sql pyspark

在您尝试过的各种方法中,例如df.select('column').distinct()df.groupby('column').count(),从列中提取不同值的最有效方法是什么?

the*_*tom 5

这并不重要,正如您在这篇优秀的参考文献中看到的那样:https://www.waitingforcode.com/apache-spark-sql/distinct-vs-group-by-key-difference/read

这是因为 Apache Spark 有一个称为 ReplaceDistinctWithAggregate 的逻辑优化规则,它将通过聚合转换具有不同关键字的表达式。

DISTINCT 和 GROUP BY 在为列选择唯一值的简单上下文中,以相同的方式执行,即作为聚合。