比较data.table的两行,仅显示具有差异的列

Str*_*and 4 compare r data.table

我得到了一个很大的data.table,它具有不同类型的列:例如数字或字符。例如

 data.table(name=c("A","A"),val1=c(1,2),val2=c(3,3),cat=c("u","v"))

       name val1 val2 cat
   1:    A    1    3   u
   2:    A    2    3   v
Run Code Online (Sandbox Code Playgroud)

结果,我只需要data.table和列,其中两行之间的条目是不同的:

 data.table(val1=c(1,2),cat=c("u","v"))

       val1 cat
   1:    1   u
   2:    2   v
Run Code Online (Sandbox Code Playgroud)

Cat*_*ath 5

您可以检查列中是否只有一个值,并仅返回具有多个值的值:

mydt <- data.table(name=c("A", "A"), val1=c(1, 2), val2=c(3, 3), cat=c("u", "v"))
mydt_red <- mydt[, lapply(.SD, function(x) if(length(unique(x))!=1) x else NULL)]
mydt_red
#   val1 cat
#1:    1   u
#2:    2   v
Run Code Online (Sandbox Code Playgroud)

编辑
正如@kath所提到的,获得结果的一种更有效的方法是使用minmax函数,并将它们与Filter

mydt_red2 <- Filter(function(x) min(x)!=max(x), mydt)
Run Code Online (Sandbox Code Playgroud)

一些基本基准

# Data (inspired by /sf/answers/2502255941/)
nrow=10000
ncol=10000
mydt <- data.frame(matrix(sample(1:(ncol*nrow),ncol*nrow,replace = FALSE), ncol = ncol))
setDT(mydt)

system.time(mydt_redUni <- mydt[, lapply(.SD, function(x) if(length(unique(x))>1) x else NULL)])
#utilisateur     système      écoulé 
#       2.31        0.52        2.83 
system.time(mydt_redFilt <- Filter(function(x) length(unique(x)) > 1, mydt))
#utilisateur     système      écoulé 
#     1.65        0.22        1.87 
system.time(mydt_redSort <- mydt[, lapply(.SD, function(x) {xs <- sort(x); if(xs[1]!=tail(xs, 1)) x else NULL})])
#utilisateur     système      écoulé 
#    3.87        0.00        3.87 
system.time(mydt_redMinMax <- mydt[, lapply(.SD, function(x) if(min(x)!=max(x)) x else NULL)])
#utilisateur     système      écoulé 
#    0.67        0.00        0.67 
system.time(mydt_redFiltminmax <- Filter(function(x) min(x)!=max(x), mydt))
#utilisateur     système      écoulé 
#    0.13        0.01        0.14 
system.time(mydt_redSotos <- Filter(function(i)var(as.numeric(as.factor(i))) != 0, mydt))
#utilisateur     système      écoulé
#  100.76        0.05      100.84
Run Code Online (Sandbox Code Playgroud)


Jor*_*hau 5

使用基数R,您可以执行以下操作:

library(data.table)

dt <- data.table(name=c("A","A"),val1=c(1,2),val2=c(3,3),cat=c("u","v"))

Filter(function(x) length(unique(x)) > 1, dt)   
#>    val1 cat
#> 1:    1   u
#> 2:    2   v
Run Code Online (Sandbox Code Playgroud)

  • 或者:`过滤器(函数(x)uniqueN(x)&gt; 1,dt)` (2认同)