如果所有汇总值均为NA,则dplyr summary保留NA

Tri*_*akx 3 r dplyr

我想使用dplyr汇总来按组对计数进行求和。具体来说,如果并非所有求和值均为NA,我想删除NA值,但是如果所有求和值均为NA,我想显示NA。例如:

name <- c("jack", "jack", "mary", "mary", "ellen", "ellen")
number <- c(1,2,1,NA,NA,NA)

df <- data.frame(name,number)
Run Code Online (Sandbox Code Playgroud)

在这种情况下,我想要以下结果:

  • 杰克= 3
  • 玛丽= 1
  • 艾伦= NA

但是,如果我设置na.rm = F

df %>% group_by(name) %>% summarise(number = sum(number, na.rm = F))
Run Code Online (Sandbox Code Playgroud)

结果是:

  • 杰克= 3
  • 玛丽=不
  • 艾伦= NA

如果我设置na.rm = T

df %>% group_by(name) %>% summarise(number = sum(number, na.rm = T))
Run Code Online (Sandbox Code Playgroud)

结果是

  • 杰克= 3
  • 玛丽= 1
  • 艾伦= 0

我该如何解决,以便具有数字和NA的个案获得一个数字作为输出,但是只有NA的个案获得NA作为输出。

akr*_*run 5

我们可以有一个if/else条件-'number中if all的值是NA,然后返回NAelse获取sum

library(dplyr)
df %>% 
  group_by(name) %>% 
  summarise(number = if(all(is.na(number))) NA_real_ else sum(number, na.rm = TRUE))
Run Code Online (Sandbox Code Playgroud)


dav*_*job 5

我在同样的事情上苦苦挣扎,所以我在包装中写了一个解决方案hablar。尝试:

library(hablar)

df %>% group_by(name) %>% 
  summarise(number = sum_(number))
Run Code Online (Sandbox Code Playgroud)

这给你:

# A tibble: 3 x 2
  name  number
  <fct>  <dbl>
1 ellen    NA 
2 jack      3.
3 mary      1.
Run Code Online (Sandbox Code Playgroud)

并不是唯一的语法差异是sum_,如果所有均为NA,则返回NA的函数,否则删除NA并计算总和的无缺失值。