确定列值是否在data.table中是唯一的

Question

确定列值是否在data.table中是唯一的

我使用data.table来存储数据.我想弄清楚每行中的某些列是否唯一.我想在data.table中添加一个列,如果存在重复值,则将保留值"Duplicated Values",如果没有重复值,则为NA.我想要检查重复的列的名称存储在字符向量中.例如,我创建了我的data.table:

tmpdt<-data.table(a=c(1,2,3,4,5), b=c(2,2,3,4,5), c=c(4,2,2,4,4), d=c(3,3,1,4,5))
> tmpdt
   a b c d
1: 1 2 4 3
2: 2 2 2 3
3: 3 3 2 1
4: 4 4 4 4
5: 5 5 4 5

Run Code Online (Sandbox Code Playgroud)

我有另一个变量,指示我需要检查哪些列重复.重要的是,我能够将列名存储在字符向量中,而不需要"知道"它们(因为它们将作为参数传递给函数).

dupcheckcols<-c("a", "c", "d")

Run Code Online (Sandbox Code Playgroud)

我希望输出为:

> tmpdt
   a b c d     Dups
1: 1 2 4 3     <NA>
2: 2 2 2 3 Has Dups
3: 3 3 2 1     <NA>
4: 4 4 4 4 Has Dups
5: 5 5 4 5 Has Dups

Run Code Online (Sandbox Code Playgroud)

如果我使用的是data.frame,这很容易.我可以简单地使用:

tmpdt<-data.frame(a=c(1,2,3,4,5), b=c(2,2,3,4,5), c=c(4,2,2,4,4), d=c(3,3,1,4,5))
tmpdt$Dups<-NA
tmpdt$Dups[apply(tmpdt[,dupcheckcols], 1, function(x) {return(sum(duplicated(x))>0)})]<-"Has Dups"
> tmpdt
  a b c d     Dups
1 1 2 4 3     <NA>
2 2 2 2 3 Has Dups
3 3 3 2 1     <NA>
4 4 4 4 4 Has Dups
5 5 5 4 5 Has Dups

Run Code Online (Sandbox Code Playgroud)

但我无法弄清楚如何使用data.table完成相同的任务.任何帮助是极大的赞赏.

Answer 1

tos*_*pig 5

我相信还有其他方法

tmpdt[, dups := tmpdt[, dupcheckcols, with=FALSE][, apply(.SD, 1, function(x){sum(duplicated(x))>0})] ]
#   a b c d  dups
#1: 1 2 4 3 FALSE
#2: 2 2 2 3  TRUE
#3: 3 3 2 1 FALSE
#4: 4 4 4 4  TRUE
#5: 5 5 4 5  TRUE

Run Code Online (Sandbox Code Playgroud)

更复杂但更快(在计算方面)的方法是构造过滤条件i,然后j通过引用更新

expr <- paste(apply(t(combn(dupcheckcols,2)), 1, FUN=function(x){ paste0(x, collapse="==") }), collapse = "|")
# [1] "a==c|a==d|c==d"

expr <- parse(text=expr)
tmpdt[ eval(expr), dups := TRUE ]
#   a b c d dups
#1: 1 2 4 3   NA
#2: 2 2 2 3 TRUE
#3: 3 3 2 1   NA
#4: 4 4 4 4 TRUE
#5: 5 5 4 5 TRUE

Run Code Online (Sandbox Code Playgroud)

我对速度优势很感兴趣,所以我对这两个以及Ananda的解决方案进行了基准测试:

library(microbenchmark)

tmpdt<-data.table(a=c(1,2,3,4,5), b=c(2,2,3,4,5), c=c(4,2,2,4,4), d=c(3,3,1,4,5))
t1 <- tmpdt
t2 <- tmpdt
t3 <- tmpdt

expr <- paste(apply(t(combn(dupcheckcols,2)), 1, FUN=function(x){ paste0(x, collapse="==") }), collapse = "|")
expr <- parse(text=expr)

microbenchmark(
#Ananda's solution
t1[, dups := any(duplicated(unlist(.SD))), by = 1:nrow(tmpdt), .SDcols = dupcheckcols],

t2[, dups := t2[, dupcheckcols, with=FALSE][, apply(.SD, 1, function(x){sum(duplicated(x))>0})] ],

t3[ eval(expr), dups := TRUE ]
)
 #     min        lq      mean   median        uq      max neval cld
 # 531.416  552.5760  577.0345  565.182  573.2015 1761.863   100  b 
 #1277.569 1333.2615 1389.5857 1358.021 1387.9860 2694.951   100   c
 # 265.872  283.3525  293.9362  292.487  301.1640  520.436   100 a

Run Code Online (Sandbox Code Playgroud)

归档时间：	10 年前
查看次数：	186 次
最近记录：	10 年前