相关疑难解决方法(0)

哪个更好:区别或分组依据

哪个更有效率?

SELECT  theField
FROM    theTable
GROUP BY theField
Run Code Online (Sandbox Code Playgroud)

要么

SELECT  DISTINCT theField
FROM    theTable
Run Code Online (Sandbox Code Playgroud)

sql sql-server

13
推荐指数
4
解决办法
8340
查看次数

为什么 pyspark 中的 groupBy() 比 distinct() 快很多?

当我将distinct()spark 数据框替换为groupBy(). 但我无法理解其背后的原因。整个目的是从数据框中删除行级重复项。

我试着用搜索引擎的实现groupBy(),并distinct()在pyspark,但未能找到它。

有人可以解释或指出我正确的解释方向吗?

pyspark

5
推荐指数
2
解决办法
4201
查看次数

标签 统计

pyspark ×1

sql ×1

sql-server ×1