我试图使用data.table执行一个简单的总和和行的意思,但我得到了意想不到的结果.我按照FAQ.table 的FAQ手册第2节的帮助.我发现了一种有效的方法,但我不确定为什么常见问题解答第2节中的这种方法不适用.这个方法给了我不正确的结果(即,它给了我第一列的值):
dt[, genesum:=lapply(.SD,sum), by=gene]
head(dt)
gene TCGA_04_1348 TCGA_04_1362 genesum
1: A1BG 0.94565 0.70585 0.94565
2: A1BG-AS 0.97610 1.15850 0.97610
3: A1CF 0.00000 0.02105 0.00000
4: A2BP1 0.00300 0.04150 0.00300
5: A2LD1 4.57975 5.02820 4.57975
6: A2M 60.37320 36.09715 60.37320
Run Code Online (Sandbox Code Playgroud)
这给了我想要的结果
dt[, genesum:=apply(dt[,-1, with=FALSE],1, sum)]
head(dt)
gene TCGA_04_1348 TCGA_04_1362 genesum
1: A1BG 0.94565 0.70585 1.65150
2: A1BG-AS 0.97610 1.15850 2.13460
3: A1CF 0.00000 0.02105 0.02105
4: A2BP1 0.00300 0.04150 0.04450
5: A2LD1 4.57975 5.02820 9.60795
6: A2M 60.37320 36.09715 96.47035
Run Code Online (Sandbox Code Playgroud)
我有更多的列和行,这只是一个子集.这与我设置密钥的方式有什么关系吗?
tables()
NAME NROW MB COLS KEY
[1,] dt 20,785 2 gene,TCGA_04_1348_01A,TCGA_04_1362_01A,genesum gene
Run Code Online (Sandbox Code Playgroud)
一些东西:
dt[, genesum:=lapply(.SD,sum), by=gene]并且dt[, genesum:=apply(dt[ ,-1],1, sum)]完全不同。
dt[, genesum:=lapply(.SD,sum), by=gene]循环遍历data.table的列.SD并对它们求和
dt[, genesum:=apply(dt[, -1], 1, sum)]正在循环遍历行(即apply(x, 1, function)适用function于中的每一行x
我认为你可以通过调用来得到你想要的东西rowSums,如下所示:
dt[, genesum := rowSums(dt[, -1])]
Run Code Online (Sandbox Code Playgroud)这就是你所追求的吗?
| 归档时间: |
|
| 查看次数: |
2700 次 |
| 最近记录: |