在data.table中使用`:=`来对R中两列的值求和,忽略NA

Viv*_*ivi 18 r sum data.table

我认为这是一个与data.table和:=函数的使用相关的非常简单的问题.我不认为我完全理解这种行为,:=而且经常遇到类似的问题.

这是一些示例数据

 mat <- structure(list(
              col1 = c(NA, 0, -0.015038, 0.003817, -0.011407), 
              col2 = c(0.003745, 0.007463, -0.007407, -0.003731, -0.007491)), 
              .Names = c("col1", "col2"), 
              row.names = c(NA, 10L), 
              class = c("data.table", "data.frame"))
Run Code Online (Sandbox Code Playgroud)

这使

> mat
         col1      col2
 1:        NA  0.003745
 2:  0.000000  0.007463
 3: -0.015038 -0.007407
 4:  0.003817 -0.003731
 5: -0.011407 -0.007491
Run Code Online (Sandbox Code Playgroud)

我想创建一个名为col3的列,它给出col1和col2的总和.如果我使用

mat[,col3 := col1 + col2]

#        col1      col2      col3
#1:        NA  0.003745        NA
#2:  0.000000  0.007463  0.007463
#3: -0.015038 -0.007407 -0.022445
#4:  0.003817 -0.003731  0.000086
#5: -0.011407 -0.007491 -0.018898
Run Code Online (Sandbox Code Playgroud)

然后我得到第一行的NA,但我希望忽略NA.所以我尝试了

mat[,col3 := sum(col1,col2,na.rm=TRUE)]

#        col1      col2      col3
#1:        NA  0.003745 -0.030049
#2:  0.000000  0.007463 -0.030049
#3: -0.015038 -0.007407 -0.030049
#4:  0.003817 -0.003731 -0.030049
#5: -0.011407 -0.007491 -0.030049
Run Code Online (Sandbox Code Playgroud)

这不是我所追求的,因为它给了我col1和col2的所有元素的总和.我想我不太明白:=......我怎样才能得到col1和col2元素的总和忽略NA值?

不确定这是否相关,但这是我的sessionInfo

> sessionInfo()
R version 2.15.1 (2012-06-22)
Platform: x86_64-apple-darwin9.8.0/x86_64 (64-bit)

locale:
[1] en_AU.UTF-8/en_AU.UTF-8/en_AU.UTF-8/C/en_AU.UTF-8/en_AU.UTF-8

attached base packages:
[1] stats     graphics  grDevices utils     datasets  methods   base     

other attached packages:
[1] data.table_1.8.3
Run Code Online (Sandbox Code Playgroud)

mne*_*nel 22

这是标准R行为,与此无关 data.table

添加任何东西NA将返回NA

NA + 1
## NA
Run Code Online (Sandbox Code Playgroud)

sum 将返回一个数字

如果你想1 + NA回来1

那么你将不得不运行类似的东西

mat[,col3 := col1 + col2]
mat[is.na(col1), col3 := col2]
mat[is.na(col2), col3 := col1]
Run Code Online (Sandbox Code Playgroud)

为了应对时col1col2NA


编辑 - 一个更简单的解决方案

你也可以使用rowSums,它有一个na.rm参数

mat[ , col3 :=rowSums(.SD, na.rm = TRUE), .SDcols = c("col1", "col2")]
Run Code Online (Sandbox Code Playgroud)

rowSums是你想要的(根据定义,rowSums包含col1col2删除NA值的矩阵)

(@JoshuaUlrich建议将此作为评论)


42-*_*42- 19

这不是缺乏对data.table的理解,而是关于R中的矢量化函数.您可以定义一个二元运算符,它与缺少值的"+"运算符的行为不同:

 `%+na%` <- function(x,y) {ifelse( is.na(x), y, ifelse( is.na(y), x, x+y) )}

 mat[ , col3:= col1 %+na% col2]
#-------------------------------
        col1      col2      col3
1:        NA  0.003745  0.003745
2:  0.000000  0.007463  0.007463
3: -0.015038 -0.007407 -0.022445
4:  0.003817 -0.003731  0.000086
5: -0.011407 -0.007491 -0.018898
Run Code Online (Sandbox Code Playgroud)

您可以使用mrdwad的注释来执行此操作sum(... , na.rm=TRUE:

mat[ , col4 := sum(col1, col2, na.rm=TRUE), by=1:NROW(mat)]
Run Code Online (Sandbox Code Playgroud)

  • @Vivi这不是一个坏点.对于`min`和`max`,有'pmin`和`pmax`,所以对于`sum`,为什么没有`psum`?基本上你在寻找`psum`.我可能会问自己!... (4认同)