标签: duplicate-removal

create table employee
(
 EmpId number,
 EmpName varchar2(10),
 EmpSSN varchar2(11)
);

insert into employee values(1, 'Jack', '555-55-5555');
insert into employee values (2, 'Joe', '555-56-5555');
insert into employee values (3, 'Fred', '555-57-5555');
insert into employee values (4, 'Mike', '555-58-5555');
insert into employee values (5, 'Cathy', '555-59-5555');
insert into employee values (6, 'Lisa', '555-70-5555');
insert into employee values (1, 'Jack', '555-55-5555');
insert into employee values (4, 'Mike', '555-58-5555');
insert into employee values (5, 'Cathy', '555-59-5555');
insert into employee values (6 ,'Lisa', …

Run Code Online (Sandbox Code Playgroud)

sql t-sql sql-server-2005 duplicate-removal

Shy*_*yju

2010 07-16

50
推荐指数

7
解决办法

11万
查看次数

查找近似重复记录的技术

我正在尝试清理一个数据库,这些数据库多年来获得了许多重复记录,名称略有不同.例如,在公司表中,有"Some Company Limited"和"SOME COMPANY LTD!"等名称.

我的计划是将违规表导出为R,将名称转换为小写,替换常见的同义词(如"limited" - >"ltd"),删除非字母字符然后agrep用来查看看起来相似的内容.

我的第一个问题是agrep只接受一个匹配的模式,并且循环每个公司名称以匹配其他公司名称的速度很慢.(有些待清理的表会有数十个,可能有数十万个要检查的名称.)

我已经非常简要地看了一下这个tm包(JSS文章),它看起来非常强大,但它主要用于分析大块文本,而不仅仅是名称.

我有一些相关的问题:

tm包是否适合这类任务？
有更快的替代方案agrep吗？(所述函数使用Levenshtein编辑距离,传闻速度慢.)
R中还有其他合适的工具,除了agrep和tm？
我是否应该在R中执行此操作,还是应该直接在数据库中执行此类操作？(这是一个Access数据库,所以如果可能,我宁愿避免触摸它.)

duplicate-data r duplicate-removal fuzzy-comparison

Ric*_*ton

lucky-day

46
推荐指数

3
解决办法

1万
查看次数

如何从mysql数据库中删除重复的条目？

我有一张桌子上有一些ID +标题.我想让标题栏独一无二,但它已经有超过600k的记录,其中一些是重复的(有时是几十次).

如何删除所有重复项,除了一个,所以我可以在标题列之后添加一个UNIQUE键？

mysql duplicate-removal

作者

2010 07-16

37
推荐指数

2
解决办法

3万
查看次数

删除另一个数据框中存在的行？

我有以下两个数据框(示例):

DF1:

name    profile    type    strand
A       4.5        1       +
B       3.2        1       +
C       5.5        1       +
D       14.0       1       -
E       45.1       1       -
F       32.8       1       -
G       19.9       1       +

Run Code Online (Sandbox Code Playgroud)

DF2:

name
A
B
C
G

Run Code Online (Sandbox Code Playgroud)

我想删除行df1对于其df1$name = df2$name获得如下:

输出:

name    profile    type    strand
D       14.0       1       -
E       45.1       1       -
F       32.8       1       -

Run Code Online (Sandbox Code Playgroud)

如果有人能告诉我使用哪一段代码会有很多帮助,起初看起来很简单但是我从昨天起就搞乱了.

r duplicate-removal delete-row dataframe corresponding-records

bio*_*ard

2014 10-25

35
推荐指数

2
解决办法

3万
查看次数

如何删除两个完全相同的行中的一个？

我正在清理没有主键的数据库表(我知道,我知道,他们在想什么？).我无法添加主键,因为列中的副本将成为键.重复值来自两行中的一行,这两行在所有方面都相同.我无法通过GUI删除该行(在本例中是MySQL Workbench,但我正在寻找一种与数据库无关的方法),因为它拒绝在没有主键(或至少是UQ NN列)的表上执行任务,并且我无法添加主键,因为列中的副本将成为键.重复值来自一个......

我怎样才能删除其中一对双胞胎？

sql duplicate-removal

dav*_*one

2013 05-08

33
推荐指数

8
解决办法

8万
查看次数

在多列中重复

我有一个像这样的数据框架

> df
  a  b c    d
1 1  2 A 1001
2 2  4 B 1002
3 3  6 B 1002
4 4  8 C 1003
5 5 10 D 1004
6 6 12 D 1004
7 7 13 E 1005
8 8 14 E 1006

Run Code Online (Sandbox Code Playgroud)

我想删除列c和列d中有重复值的行.因此,在此示例中,行2,3,5和6将被删除.

我用过这个,有效:

df[!(df$c %in% df$c[duplicated(df$c)] & df$d %in% df$d[duplicated(df$d)]),]
>df
  a  b c    d
1 1  2 A 1001
4 4  8 C 1003
7 7 13 E 1005
8 8 14 E …

Run Code Online (Sandbox Code Playgroud)

r duplicate-removal dataframe

Dav*_*agh

lucky-day

32
推荐指数

2
解决办法

4万
查看次数

删除多个文件中的重复CSS声明

我希望从许多文件中删除重复的CSS声明,以便更轻松地实现更改.有没有一种工具可以帮助我做到这一点？

现在我面临着这样的事情:

styles.css
#content {
width:800px;
height:1000px;
background: green;
}

styles.game.css
#content {
width:800px;
height:1000px;
background: blue;
}

Run Code Online (Sandbox Code Playgroud)

我想要这个:

styles.css
#content {
width:800px;
height:1000px;
background: green;
}

styles.game.css
#content {
background: blue;
}

Run Code Online (Sandbox Code Playgroud)

所有文件的总行数超过10k,因此不依赖于手动编辑的技术.

css duplicates duplicate-removal

kot*_*zot

2012 03-12

29
推荐指数

4
解决办法

3万
查看次数

删除重复项,保持具有最大绝对值的条目

假设我有四个样本:id = 1,2,3和4,每个样本都有一个或多个测量值:

> a <- data.frame(id=c(1,1,2,2,3,4), value=c(1,2,3,-4,-5,6))
> a
  id value
1  1     1
2  1     2
3  2     3
4  2    -4
5  3    -5
6  4     6

Run Code Online (Sandbox Code Playgroud)

我想删除重复项,每个ID只保留一个条目 - 具有"value"列绝对值最大的条目.即,这就是我想要的:

> a[c(2,4,5,6), ]
  id value
2  1     2
4  2    -4
5  3    -5
6  4     6

Run Code Online (Sandbox Code Playgroud)

我怎么能在R中这样做？

r duplicates duplicate-removal

Ste*_*ner

2013 11-22

28
推荐指数

5
解决办法

2万
查看次数

标签统计

duplicate-removal ×10

r ×4

sql ×3

dataframe ×2

duplicates ×2

corresponding-records ×1

css ×1

delete-row ×1

duplicate-data ×1

fuzzy-comparison ×1

linq ×1

list ×1

mysql ×1

postgresql ×1

sql-delete ×1

sql-server-2005 ×1

t-sql ×1

unique-constraint ×1

标签 统计

标签统计