使用 PostgreSQL 根据选择查询中的字段删除重复行？

Question

使用 PostgreSQL 根据选择查询中的字段删除重复行？

考虑mdl_files包含以下字段的表：id, contenthash, timecreated, filesize。

该表存储附件文件。

我们认为所有具有相同内容散列的行都是重复行，我只想保留最旧的行（如果日期相等，则为第一行）。我怎样才能做到这一点？

以下查询：

SELECT
  id,
  contenthash,
  filesize,
  to_timestamp(timecreated) :: DATE
FROM mdl_files
ORDER BY contenthash;

Run Code Online (Sandbox Code Playgroud)

返回：

2480229 00002e87605311feb82b70473b61e81f0223c774    18178   2016-10-05
2997411 0000bfd20ef84948eee6811ce5bbac03de42ccb0    1293    2017-03-31
1304839 000280169fc78d704a2d4569bfb6f42ea4a1d5ae    8203    2015-11-10
1364656 000280169fc78d704a2d4569bfb6f42ea4a1d5ae    8203    2015-11-17
71568   0003c6aec5835964870902d697c06d21abf76bf7    139439  2013-04-19
2959945 000419c19d77df7285e669614075b47414e3ab2c    398 2017-03-20
3483049 00061dc0bc2452304107ddc75e7ee2908c729905    28618   2017-08-17
3483047 00061dc0bc2452304107ddc75e7ee2908c729905    28618   2017-08-17

Run Code Online (Sandbox Code Playgroud)

我想得到这个结果集：

2480229 00002e87605311feb82b70473b61e81f0223c774    18178   2016-10-05
2997411 0000bfd20ef84948eee6811ce5bbac03de42ccb0    1293    2017-03-31
1304839 000280169fc78d704a2d4569bfb6f42ea4a1d5ae    8203    2015-11-10

71568   0003c6aec5835964870902d697c06d21abf76bf7    139439  2013-04-19
2959945 000419c19d77df7285e669614075b47414e3ab2c    398 2017-03-20
3483049 00061dc0bc2452304107ddc75e7ee2908c729905    28618   2017-08-17

Run Code Online (Sandbox Code Playgroud)

我希望从结果集中删除以下重复的行：

1364656 000280169fc78d704a2d4569bfb6f42ea4a1d5ae    8203    2015-11-17
3483047 00061dc0bc2452304107ddc75e7ee2908c729905    28618   2017-08-17

Run Code Online (Sandbox Code Playgroud)

Answer 1

Gor*_*off 10

使用DISTINCT ON：

SELECT DISTINCT ON (contenthash)
  id,
  contenthash,
  filesize,
  to_timestamp(timecreated) :: DATE
FROM mdl_files
ORDER BY contenthash, timecreated, id;

Run Code Online (Sandbox Code Playgroud)

DISTINCT ON是一个 Postgres 扩展，它确保为括号中键的每个唯一组合返回一行。特定行是根据order by子句找到的第一个行。

Answer 2

D-S*_*hih 8

您可以尝试使用ROW_NUMBER()windows函数来创建行号然后将其删除。

SELECT t.* 
FROM (
SELECT
      id,
      contenthash,
      filesize,
      ROW_NUMBER() OVER (PARTITION BY contenthash,filesize order by timecreated) rn
FROM mdl_files
) t
where t.rn = 1

Run Code Online (Sandbox Code Playgroud)

sqlfiddle

如果要DELETE复制数据，可以使用EXISTSwhere 子句。

DELETE 
FROM mdl_files f WHERE EXISTS(
  SELECT 1
  FROM (
  SELECT
        id,
        contenthash,
        filesize,
        ROW_NUMBER() OVER (PARTITION BY contenthash,filesize order by timecreated) rn
  FROM mdl_files
  ) t
  where t.rn > 1 and t.id = f.id
)

Run Code Online (Sandbox Code Playgroud)

sqlfiddle

归档时间：	7 年，6 月前
查看次数：	3668 次
最近记录：	7 年，6 月前