标签: duplicate-removal

C#LINQ在List中查找重复项

使用LINQ,从a List<int>,如何检索包含重复多次的条目及其值的列表?

linq list duplicate-removal

293
推荐指数
6
解决办法
23万
查看次数

如何删除重复的条目?

我必须为现有表添加唯一约束.这很好,除了表已经有数百万行,并且许多行违反了我需要添加的唯一约束.

删除有问题的行的最快方法是什么?我有一个SQL语句,它找到重复项并删除它们,但它需要永远运行.有没有其他方法可以解决这个问题?也许备份表,然后在添加约束后恢复?

sql postgresql duplicate-removal unique-constraint sql-delete

93
推荐指数
7
解决办法
9万
查看次数

从没有主键的SQL表中删除重复记录

我在下面的表格中有以下记录

create table employee
(
 EmpId number,
 EmpName varchar2(10),
 EmpSSN varchar2(11)
);

insert into employee values(1, 'Jack', '555-55-5555');
insert into employee values (2, 'Joe', '555-56-5555');
insert into employee values (3, 'Fred', '555-57-5555');
insert into employee values (4, 'Mike', '555-58-5555');
insert into employee values (5, 'Cathy', '555-59-5555');
insert into employee values (6, 'Lisa', '555-70-5555');
insert into employee values (1, 'Jack', '555-55-5555');
insert into employee values (4, 'Mike', '555-58-5555');
insert into employee values (5, 'Cathy', '555-59-5555');
insert into employee values (6 ,'Lisa', …
Run Code Online (Sandbox Code Playgroud)

sql t-sql sql-server-2005 duplicate-removal

50
推荐指数
7
解决办法
11万
查看次数

查找近似重复记录的技术

我正在尝试清理一个数据库,这些数据库多年来获得了许多重复记录,名称略有不同.例如,在公司表中,有"Some Company Limited"和"SOME COMPANY LTD!"等名称.

我的计划是将违规表导出为R,将名称转换为小写,替换常见的同义词(如"limited" - >"ltd"),删除非字母字符然后agrep用来查看看起来相似的内容.

我的第一个问题是agrep只接受一个匹配的模式,并且循环每个公司名称以匹配其他公司名称的速度很慢.(有些待清理的表会有数十个,可能有数十万个要检查的名称.)

我已经非常简要地看了一下这个tm包(JSS文章),它看起来非常强大,但它主要用于分析大块文本,而不仅仅是名称.

我有一些相关的问题:

  1. tm包是否适合这类任务?

  2. 有更快的替代方案agrep吗?(所述函数使用Levenshtein编辑距离,传闻速度慢.)

  3. R中还有其他合适的工具,除了agreptm

  4. 我是否应该在R中执行此操作,还是应该直接在数据库中执行此类操作?(这是一个Access数据库,所以如果可能,我宁愿避免触摸它.)

duplicate-data r duplicate-removal fuzzy-comparison

46
推荐指数
3
解决办法
1万
查看次数

如何从mysql数据库中删除重复的条目?

我有一张桌子上有一些ID +标题.我想让标题栏独一无二,但它已经有超过600k的记录,其中一些是重复的(有时是几十次).

如何删除所有重复项,除了一个,所以我可以在标题列之后添加一个UNIQUE键?

mysql duplicate-removal

37
推荐指数
2
解决办法
3万
查看次数

删除另一个数据框中存在的行?

我有以下两个数据框(示例):

DF1:

name    profile    type    strand
A       4.5        1       +
B       3.2        1       +
C       5.5        1       +
D       14.0       1       -
E       45.1       1       -
F       32.8       1       -
G       19.9       1       +
Run Code Online (Sandbox Code Playgroud)

DF2:

name
A
B
C
G
Run Code Online (Sandbox Code Playgroud)

我想删除行df1对于其df1$name = df2$name获得如下:

输出:

name    profile    type    strand
D       14.0       1       -
E       45.1       1       -
F       32.8       1       -
Run Code Online (Sandbox Code Playgroud)

如果有人能告诉我使用哪一段代码会有很多帮助,起初看起来很简单但是我从昨天起就搞乱了.

r duplicate-removal delete-row dataframe corresponding-records

35
推荐指数
2
解决办法
3万
查看次数

如何删除两个完全相同的行中的一个?

我正在清理没有主键的数据库表(我知道,我知道,他们在想什么?).我无法添加主键,因为列中的副本将成为键.重复值来自两行中的一行,这两行在所有方面都相同.我无法通过GUI删除该行(在本例中是MySQL Workbench,但我正在寻找一种与数据库无关的方法),因为它拒绝在没有主键(或至少是UQ NN列)的表上执行任务,并且我无法添加主键,因为列中的副本将成为键.重复值来自一个......

我怎样才能删除其中一对双胞胎?

sql duplicate-removal

33
推荐指数
8
解决办法
8万
查看次数

在多列中重复

我有一个像这样的数据框架

> df
  a  b c    d
1 1  2 A 1001
2 2  4 B 1002
3 3  6 B 1002
4 4  8 C 1003
5 5 10 D 1004
6 6 12 D 1004
7 7 13 E 1005
8 8 14 E 1006
Run Code Online (Sandbox Code Playgroud)

我想删除列c和列d中有重复值的行.因此,在此示例中,行2,3,5和6将被删除.

我用过这个,有效:

df[!(df$c %in% df$c[duplicated(df$c)] & df$d %in% df$d[duplicated(df$d)]),]
>df
  a  b c    d
1 1  2 A 1001
4 4  8 C 1003
7 7 13 E 1005
8 8 14 E …
Run Code Online (Sandbox Code Playgroud)

r duplicate-removal dataframe

32
推荐指数
2
解决办法
4万
查看次数

删除多个文件中的重复CSS声明

我希望从许多文件中删除重复的CSS声明,以便更轻松地实现更改.有没有一种工具可以帮助我做到这一点?

现在我面临着这样的事情:

styles.css
#content {
width:800px;
height:1000px;
background: green;
}

styles.game.css
#content {
width:800px;
height:1000px;
background: blue;
}
Run Code Online (Sandbox Code Playgroud)

我想要这个:

styles.css
#content {
width:800px;
height:1000px;
background: green;
}

styles.game.css
#content {
background: blue;
}
Run Code Online (Sandbox Code Playgroud)

所有文件的总行数超过10k,因此不依赖于手动编辑的技术.

css duplicates duplicate-removal

29
推荐指数
4
解决办法
3万
查看次数

删除重复项,保持具有最大绝对值的条目

假设我有四个样本:id = 1,2,3和4,每个样本都有一个或多个测量值:

> a <- data.frame(id=c(1,1,2,2,3,4), value=c(1,2,3,-4,-5,6))
> a
  id value
1  1     1
2  1     2
3  2     3
4  2    -4
5  3    -5
6  4     6
Run Code Online (Sandbox Code Playgroud)

我想删除重复项,每个ID只保留一个条目 - 具有"value"列绝对值最大的条目.即,这就是我想要的:

> a[c(2,4,5,6), ]
  id value
2  1     2
4  2    -4
5  3    -5
6  4     6
Run Code Online (Sandbox Code Playgroud)

我怎么能在R中这样做?

r duplicates duplicate-removal

28
推荐指数
5
解决办法
2万
查看次数