SQL删除几乎重复的行

Question

SQL删除几乎重复的行

jim*_*ler 5 t-sql sql-server duplicate-data filter sql-server-2008

我有一个包含非常糟糕的数据的表,我正在尝试过滤掉一些.我确信LName,FName组合是唯一的,因为数据集足够小以便验证.

LName, FName, Email
-----  -----  -----
Smith  Bob    bsmith@example.com
Smith  Bob    NULL
Doe    Jane   NULL
White  Don    dwhite@example.com

Run Code Online (Sandbox Code Playgroud)

我想让查询结果带回没有NULL电子邮件的"重复"记录,但是当没有重复时仍然带回NULL电子邮件.

例如

Smith Bob   bsmith@example.com
Doe   Jane  NULL
White Don   dwhite@example.com

Run Code Online (Sandbox Code Playgroud)

我认为解决方案类似于Sql,按值删除重复行,但我不太明白提问者的要求是否与我的相同.

有什么建议？

谢谢

Answer 1

小智 7

如果存在任何非空值,则会删除空行.

SELECT  lname
        , fname
        , MIN(email)
FROM    YourTable
GROUP BY
        lname
        , fname

Run Code Online (Sandbox Code Playgroud)

测试脚本

DECLARE @Test TABLE (
  LName VARCHAR(32)
  , FName VARCHAR(32)
  , Email VARCHAR(32)
)

INSERT INTO @Test
  SELECT 'Smith', 'Bob', 'bsmith@example.com'
  UNION ALL SELECT 'Smith', 'Bob', 'NULL'
  UNION ALL SELECT 'Doe', 'Jane', 'NULL'
  UNION ALL SELECT 'White', 'Don', 'dwhite@example.com'

SELECT  lname
        , fname
        , MIN(Email)        
FROM    @Test
GROUP BY
        lname
        , fname

Run Code Online (Sandbox Code Playgroud)

Answer 2

Cha*_*ndu 7

您可以使用ROW_NUMBER()分析函数:

SELECT *
  FROM (
                SELECT a.*, ROW_NUMBER() OVER(PARTITION BY LName, FName ORDER BY Email DESC) rnk
                    FROM <YOUR_TABLE> a
                ) a
WHERE RNK = 1

Run Code Online (Sandbox Code Playgroud)

归档时间：	15 年，1 月前
查看次数：	2896 次
最近记录：	15 年，1 月前