从 Spark 数据框中选择不同值的最有效方法是什么？

Question

在您尝试过的各种方法中，例如df.select('column').distinct()等df.groupby('column').count()，从列中提取不同值的最有效方法是什么？

Answer 1

这是因为 Apache Spark 有一个称为 ReplaceDistinctWithAggregate 的逻辑优化规则，它将通过聚合转换具有不同关键字的表达式。

DISTINCT 和 GROUP BY 在为列选择唯一值的简单上下文中，以相同的方式执行，即作为聚合。