识别重复值 - Google BigQuery

Jor*_*wry 2 google-bigquery

我只是想识别 BigQuery 中的重复值。

我的代码如下所示:

SELECT
  address,
  title_1,
  COUNT(*)
FROM
  `target.querytable`
GROUP BY
  1,2
HAVING
  COUNT (*) > 1
Run Code Online (Sandbox Code Playgroud)

我试图识别 title_1 字段中的重复记录,并从地址列中选择相应的 url 以及重复项的总和。理想情况下,输出如下所示:

在此输入图像描述

Mik*_*ant 7

以下是 BigQuery 标准 SQL

#standardSQL
SELECT * FROM (
  SELECT *, COUNT(1) OVER(PARTITION BY title_1) dup_count
  FROM `target.querytable`
)
WHERE dup_count > 1
Run Code Online (Sandbox Code Playgroud)