哪个更有效率?
SELECT theField
FROM theTable
GROUP BY theField
Run Code Online (Sandbox Code Playgroud)
要么
SELECT DISTINCT theField
FROM theTable
Run Code Online (Sandbox Code Playgroud) 当我将distinct()spark 数据框替换为groupBy(). 但我无法理解其背后的原因。整个目的是从数据框中删除行级重复项。
我试着用搜索引擎的实现groupBy(),并distinct()在pyspark,但未能找到它。
有人可以解释或指出我正确的解释方向吗?