如何在clickhouse中找到重复的记录

Ama*_*nda 3 sql duplicates clickhouse

我想知道如何在clickhouse的一个表中找到重复的数据条目

我实际上正在研究合并树表,并且实际上在我的表中抛出了优化语句,但这并没有达到目的。重复的条目仍然存在。

首选的是具有通用策略而不引用各个列名称。

我只想查看重复的条目,因为我正在处理非常大的表。

Ama*_*nda 9

最直接的方法是运行此查询。

SELECT 
    *, 
    count() AS cnt
FROM myDB.myTable
GROUP BY *
HAVING cnt > 1
ORDER BY date ASC
Run Code Online (Sandbox Code Playgroud)

如果该查询变得很大,您可以分段运行它。

SELECT 
    *,
    count() AS cnt
FROM myDB.myTable
WHERE (date >= '2020-08-01') AND (date < '2020-09-01')
GROUP BY *
HAVING cnt > 1
ORDER BY date ASC
Run Code Online (Sandbox Code Playgroud)