用data.table R选择行或列?

ska*_*kan 5 select row r data.table

想象一下,我有一个data.table,例如:

library(data.table) 
RRR <-data.table(1:15,runif(15),rgeom(15,0.5),rbinom(15,2,0.5))

    V1      V2    V3  V4
 1:  1 0.33577273  0  0
 2:  2 0.66739739  2  1
 3:  3 0.07501655  0  0
 4:  4 0.43195663  2  1
 5:  5 0.39525841  3  2
 6:  6 0.15189738  1  1
 7:  7 0.02637279  0  1
 8:  8 0.44165623  0  1
 9:  9 0.98710570  2  0
10: 10 0.62402805  1  0
11: 11 0.84829465  3  2
12: 12 0.02170976  0  1
13: 13 0.74608925  0  2
14: 14 0.29102296  2  0
15: 15 0.83820646  1  1
Run Code Online (Sandbox Code Playgroud)

如何从中获取data.table,所有ROWS在任何列都包含"0"?(或某些价值)
如果我必须使用单一列我可以使用:

RRR[V4==0,]

   V1    V2      V3  V4
1:  1 0.33577273  0  0
2:  3 0.07501655  0  0
3:  9 0.98710570  2  0
4: 10 0.62402805  1  0
5: 14 0.29102296  2  0
Run Code Online (Sandbox Code Playgroud)

但是,如果我想立刻使用所有列,因为我有很多?

这不符合我的需要.

RRR[,sapply(RRR,function(xx)(xx==0)), with=TRUE]   

     V1      V2     V3    V4
[1,]  FALSE FALSE  TRUE  TRUE
[2,]  FALSE FALSE FALSE FALSE
[3,]  FALSE FALSE  TRUE  TRUE
[4,]  FALSE FALSE FALSE FALSE
[5,]  FALSE FALSE FALSE FALSE
[6,]  FALSE FALSE FALSE FALSE
[7,]  FALSE FALSE  TRUE FALSE
[8,]  FALSE FALSE  TRUE FALSE
[9,]  FALSE FALSE FALSE  TRUE
[10,] FALSE FALSE FALSE  TRUE
[11,] FALSE FALSE FALSE FALSE
[12,] FALSE FALSE  TRUE FALSE
[13,] FALSE FALSE  TRUE FALSE
[14,] FALSE FALSE FALSE  TRUE
[15,] FALSE FALSE FALSE FALSE
Run Code Online (Sandbox Code Playgroud)

也许用for循环和一些复杂的粘贴?虽然,我更喜欢使用简单的data.table语法.

同样,你如何获得一个data.table,其中包含任何行中包含'0'的所有COLUMNS?

我知道如何获得满足条件的列(作为一个整体),例如数字,

RRR[,sapply(RRR,function(xx)is.numeric(xx)),with=FALSE]
Run Code Online (Sandbox Code Playgroud)

但是如果我想要元素测试条件,这个方法不起作用.


如果有人感兴趣,这是一个更大的随机数据的system.time().使用您提供的不同解决方案到目前为止,稍作修改.

set.seed(1)
n <- 1000000
RRR <- data.table(matrix(rgeom(100*n,0.5), ncol=100))

Getting ROWS   
> RRR[RRR[,rowSums(RRR==0)>0]] 
   user  system elapsed 
   2.72    0.55    3.27 
> RRR[rowSums(RRR==0)>0] 
   user  system elapsed 
   2.58    0.70    3.28 
> RRR[apply(RRR,MAR=1,function(xx)any(xx==0))]
   user  system elapsed 
   10.81    0.19   11.00       
> RRR[apply(RRR[,paste0('V',1:ncol(RRR)),with=FALSE],function(xx)any(xx==0),MAR=1)]
  user  system elapsed 
  10.49    0.30   10.83 

Getting COLUMNS
> RRR[,sapply(RRR,function(xx)any(xx==0)), with=FALSE] 
   user  system elapsed 
   0.81    0.31    1.12 
> `[.listof`(RRR,colSums(RRR==0)>0) 
   user  system elapsed 
   2.14    0.27    2.41 
> RRR[,colSums(RRR==0)>0, with=FALSE] 
   user  system elapsed 
   2.26    0.48    2.75 
> RRR[, .SD, .SDcols=sapply(RRR, function(x) any(x==0))]      #only version 1.9.5, seems the same solution than the first one.
   user  system elapsed 
   0.78    0.36    1.14 
> RRR[, .SD, .SDcols=sapply(RRR, function(x) any(!as.logical(x)))]
   user  system elapsed 
   0.41    0.25    0.66 
> RRR[Reduce('|',lapply(RRR,function(xx)(xx==0)))]
   user  system elapsed 
   3.11    0.33    3.44 
> RRR[,apply(RRR[,paste0('V',1:ncol(RRR)),with=FALSE],function(xx)any(xx==0),MAR=2),with=FALSE]
   user  system elapsed 
   3.48    0.80    4.28  
Run Code Online (Sandbox Code Playgroud)

我还没有包括在内:

RRR[, i := any(unlist(lapply(.SD, function(x) x==0))), seq_len(nrow(RRR))][i==TRUE][,i:=NULL]   
Run Code Online (Sandbox Code Playgroud)

花了几分钟我停了下来,它"标记"行而不是提取它们,这是最复杂的解决方案.

我会等待更快或更简单的解决方案,并听取您的意见和喜好.

sapply原本应该慢一点,但事实并非如此.如果data.table包含其他类型的数据,结果可能会更改.


如果我们可以在每一行或每列中发生第一次发生时立即停止测试(== 0),我们就可以加快速度.但我想我们不能没有循环或一些低级访问或按位操作.

我想到了一种新方法.

  1. sapply(RRR,函数(XX)其中(XX == 0))
  2. 我需要将a)的结果与列表的并集结合起来,但我不知道如何为任意数量的列做到这一点.
  3. 然后得到那些行RRR ["a)"]

我想如果零的数量很大,它会慢得多.

也许也尝试,RRR[unique(unlist(sapply(RRR,function(xx)which(xx==0))))] 但它太慢了.

相反的选择是 RRR[(RRR==0)] <- NA; na.omit(RRR)

Fra*_*ank 7

rowSums功能可在此处使用:

RRR[rowSums(!RRR)>0]
Run Code Online (Sandbox Code Playgroud)

!RRR如何工作的:是一个TRUE任意零的矩阵.在一般情况下,您可以!RRR使用要检查的逻辑条件进行替换.例如,要查看是否有任何元素等于3,你可以采取rowSumsRRR==3.

我认为rowSums(test(x))>0基本上是一样的apply(RRR,1,function(x)any(!test(x))); 都将对象强制转换为矩阵.我发现这个rowSums版本更容易阅读,并认为我听到人们称赞它的效率.


对于列,类似地:

RRR[, colSums(!RRR)>0, with=FALSE]
Run Code Online (Sandbox Code Playgroud)