data.table中的行操作

sah*_*hir 5 r mean data.table

我试图使用data.table执行一个简单的总和和行的意思,但我得到了意想不到的结果.我按照FAQ.table 的FAQ手册第2节的帮助.我发现了一种有效的方法,但我不确定为什么常见问题解答第2节中的这种方法不适用.这个方法给了我不正确的结果(即,它给了我第一列的值):

dt[, genesum:=lapply(.SD,sum), by=gene]
head(dt)

      gene      TCGA_04_1348      TCGA_04_1362   genesum  
  1:    A1BG          0.94565          0.70585  0.94565   
  2: A1BG-AS          0.97610          1.15850  0.97610   
  3:    A1CF          0.00000          0.02105  0.00000   
  4:   A2BP1          0.00300          0.04150  0.00300   
  5:   A2LD1          4.57975          5.02820  4.57975  
  6:     A2M         60.37320         36.09715 60.37320 
Run Code Online (Sandbox Code Playgroud)

这给了我想要的结果

dt[, genesum:=apply(dt[,-1, with=FALSE],1, sum)]
head(dt)

       gene     TCGA_04_1348       TCGA_04_1362 genesum
  1:    A1BG          0.94565          0.70585  1.65150
  2: A1BG-AS          0.97610          1.15850  2.13460
  3:    A1CF          0.00000          0.02105  0.02105
  4:   A2BP1          0.00300          0.04150  0.04450
  5:   A2LD1          4.57975          5.02820  9.60795
  6:     A2M         60.37320         36.09715 96.47035
Run Code Online (Sandbox Code Playgroud)

我有更多的列和行,这只是一个子集.这与我设置密钥的方式有什么关系吗?

tables()
 NAME        NROW    MB COLS                                               KEY                                             
 [1,] dt     20,785  2  gene,TCGA_04_1348_01A,TCGA_04_1362_01A,genesum    gene
Run Code Online (Sandbox Code Playgroud)

Ste*_*lou 5

一些东西:

  1. dt[, genesum:=lapply(.SD,sum), by=gene]并且dt[, genesum:=apply(dt[ ,-1],1, sum)]完全不同。

    • dt[, genesum:=lapply(.SD,sum), by=gene]循环遍历data.table的.SD并对它们求和

    • dt[, genesum:=apply(dt[, -1], 1, sum)]正在循环遍历行(即apply(x, 1, function)适用function于中的每一行x

  2. 我认为你可以通过调用来得到你想要的东西rowSums,如下所示:

    dt[, genesum := rowSums(dt[, -1])]
    
    Run Code Online (Sandbox Code Playgroud)

这就是你所追求的吗?