小编use*_*440的帖子

从大型数据集中删除重复项(> 100Mio行)

我知道这个主题在此之前出现了很多次,但是没有一个建议的解决方案适用于我的数据集,因为我的笔记本电脑由于内存问题或完全存储而停止计算.

我的表看起来如下,并有108Mio行:

Col1       |Col2   |  Col3           |Col4   |SICComb |  NameComb 

Case New   |3523   |  Alexander      |6799   |67993523| AlexanderCase New 
Case New   |3523   |  Undisclosed    |6799   |67993523| Case NewUndisclosed 
Undisclosed|6799   |  Case New       |3523   |67993523| Case NewUndisclosed 
Case New   |3523   |  Undisclosed    |6799   |67993523| Case NewUndisclosed 
SmartCard  |3674   |  NEC            |7373   |73733674| NECSmartCard 
SmartCard  |3674   |  Virtual NetComm|7373   |73733674| SmartCardVirtual NetComm 
SmartCard  |3674   |  NEC            |7373   |73733674| NECSmartCard
Run Code Online (Sandbox Code Playgroud)

独特的列是SICCombNameComb.我尝试添加一个主键:

ALTER TABLE dbo.test ADD ID INT …
Run Code Online (Sandbox Code Playgroud)

t-sql sql-server duplicates sql-server-2008

4
推荐指数
2
解决办法
4664
查看次数

标签 统计

duplicates ×1

sql-server ×1

sql-server-2008 ×1

t-sql ×1