使用LINQ,从a List<int>,如何检索包含重复多次的条目及其值的列表?
我必须为现有表添加唯一约束.这很好,除了表已经有数百万行,并且许多行违反了我需要添加的唯一约束.
删除有问题的行的最快方法是什么?我有一个SQL语句,它找到重复项并删除它们,但它需要永远运行.有没有其他方法可以解决这个问题?也许备份表,然后在添加约束后恢复?
sql postgresql duplicate-removal unique-constraint sql-delete
我在下面的表格中有以下记录
create table employee
(
EmpId number,
EmpName varchar2(10),
EmpSSN varchar2(11)
);
insert into employee values(1, 'Jack', '555-55-5555');
insert into employee values (2, 'Joe', '555-56-5555');
insert into employee values (3, 'Fred', '555-57-5555');
insert into employee values (4, 'Mike', '555-58-5555');
insert into employee values (5, 'Cathy', '555-59-5555');
insert into employee values (6, 'Lisa', '555-70-5555');
insert into employee values (1, 'Jack', '555-55-5555');
insert into employee values (4, 'Mike', '555-58-5555');
insert into employee values (5, 'Cathy', '555-59-5555');
insert into employee values (6 ,'Lisa', …Run Code Online (Sandbox Code Playgroud) 我正在尝试清理一个数据库,这些数据库多年来获得了许多重复记录,名称略有不同.例如,在公司表中,有"Some Company Limited"和"SOME COMPANY LTD!"等名称.
我的计划是将违规表导出为R,将名称转换为小写,替换常见的同义词(如"limited" - >"ltd"),删除非字母字符然后agrep用来查看看起来相似的内容.
我的第一个问题是agrep只接受一个匹配的模式,并且循环每个公司名称以匹配其他公司名称的速度很慢.(有些待清理的表会有数十个,可能有数十万个要检查的名称.)
我已经非常简要地看了一下这个tm包(JSS文章),它看起来非常强大,但它主要用于分析大块文本,而不仅仅是名称.
我有一些相关的问题:
tm包是否适合这类任务?
有更快的替代方案agrep吗?(所述函数使用Levenshtein编辑距离,传闻速度慢.)
R中还有其他合适的工具,除了agrep和tm?
我是否应该在R中执行此操作,还是应该直接在数据库中执行此类操作?(这是一个Access数据库,所以如果可能,我宁愿避免触摸它.)
我有一张桌子上有一些ID +标题.我想让标题栏独一无二,但它已经有超过600k的记录,其中一些是重复的(有时是几十次).
如何删除所有重复项,除了一个,所以我可以在标题列之后添加一个UNIQUE键?
我有以下两个数据框(示例):
DF1:
name profile type strand
A 4.5 1 +
B 3.2 1 +
C 5.5 1 +
D 14.0 1 -
E 45.1 1 -
F 32.8 1 -
G 19.9 1 +
Run Code Online (Sandbox Code Playgroud)
DF2:
name
A
B
C
G
Run Code Online (Sandbox Code Playgroud)
我想删除行df1对于其df1$name = df2$name获得如下:
输出:
name profile type strand
D 14.0 1 -
E 45.1 1 -
F 32.8 1 -
Run Code Online (Sandbox Code Playgroud)
如果有人能告诉我使用哪一段代码会有很多帮助,起初看起来很简单但是我从昨天起就搞乱了.
r duplicate-removal delete-row dataframe corresponding-records
我正在清理没有主键的数据库表(我知道,我知道,他们在想什么?).我无法添加主键,因为列中的副本将成为键.重复值来自两行中的一行,这两行在所有方面都相同.我无法通过GUI删除该行(在本例中是MySQL Workbench,但我正在寻找一种与数据库无关的方法),因为它拒绝在没有主键(或至少是UQ NN列)的表上执行任务,并且我无法添加主键,因为列中的副本将成为键.重复值来自一个......
我怎样才能删除其中一对双胞胎?
我有一个像这样的数据框架
> df
a b c d
1 1 2 A 1001
2 2 4 B 1002
3 3 6 B 1002
4 4 8 C 1003
5 5 10 D 1004
6 6 12 D 1004
7 7 13 E 1005
8 8 14 E 1006
Run Code Online (Sandbox Code Playgroud)
我想删除列c和列d中有重复值的行.因此,在此示例中,行2,3,5和6将被删除.
我用过这个,有效:
df[!(df$c %in% df$c[duplicated(df$c)] & df$d %in% df$d[duplicated(df$d)]),]
>df
a b c d
1 1 2 A 1001
4 4 8 C 1003
7 7 13 E 1005
8 8 14 E …Run Code Online (Sandbox Code Playgroud) 我希望从许多文件中删除重复的CSS声明,以便更轻松地实现更改.有没有一种工具可以帮助我做到这一点?
现在我面临着这样的事情:
styles.css
#content {
width:800px;
height:1000px;
background: green;
}
styles.game.css
#content {
width:800px;
height:1000px;
background: blue;
}
Run Code Online (Sandbox Code Playgroud)
我想要这个:
styles.css
#content {
width:800px;
height:1000px;
background: green;
}
styles.game.css
#content {
background: blue;
}
Run Code Online (Sandbox Code Playgroud)
所有文件的总行数超过10k,因此不依赖于手动编辑的技术.
假设我有四个样本:id = 1,2,3和4,每个样本都有一个或多个测量值:
> a <- data.frame(id=c(1,1,2,2,3,4), value=c(1,2,3,-4,-5,6))
> a
id value
1 1 1
2 1 2
3 2 3
4 2 -4
5 3 -5
6 4 6
Run Code Online (Sandbox Code Playgroud)
我想删除重复项,每个ID只保留一个条目 - 具有"value"列绝对值最大的条目.即,这就是我想要的:
> a[c(2,4,5,6), ]
id value
2 1 2
4 2 -4
5 3 -5
6 4 6
Run Code Online (Sandbox Code Playgroud)
我怎么能在R中这样做?
r ×4
sql ×3
dataframe ×2
duplicates ×2
css ×1
delete-row ×1
linq ×1
list ×1
mysql ×1
postgresql ×1
sql-delete ×1
t-sql ×1