小编mic*_*hdn的帖子

dplyr 条件汇总函数

我有这种情况，我需要根据条件使用不同的汇总函数。例如，使用鸢尾花，假设由于某种原因，如果物种是 setosa，我想要花瓣宽度的总和，否则我想要花瓣宽度的平均值。

天真地，我使用 case_when 写了这个，这不起作用：

iris <- tibble::as_tibble(iris)

 iris %>% 
  group_by(Species) %>% 
  summarise(pwz = case_when(
    Species == "setosa" ~ sum(Petal.Width, na.rm = TRUE),
    TRUE                ~ mean(Petal.Width, na.rm = TRUE)))

Run Code Online (Sandbox Code Playgroud)

summarise_impl(.data, dots) 中的错误：列的pwz长度必须为 1（汇总值），而不是 50

我最终找到了这样的东西，使用每种方法进行总结，然后在变异中选择我真正想要的方法：

iris %>% 
  group_by(Species) %>% 
  summarise(pws = sum(Petal.Width, na.rm = TRUE),
            pwm = mean(Petal.Width, na.rm = TRUE)) %>% 
  mutate(pwz = case_when(
    Species == "setosa" ~ pws,
    TRUE                ~ pwm)) %>% 
  select(-pws, -pwm)

Run Code Online (Sandbox Code Playgroud)

但是，创建所有这些汇总值并在最后只选择一个值似乎有点尴尬，尤其是当我的真实 case_when 复杂得多时。我不能在 summarise 中使用 case_when 吗？我的语法有错吗？任何帮助表示赞赏！

编辑：我想我应该指出我有多个条件/函数（假设我有，取决于变量，一些需要均值、总和、最大值、最小值或其他摘要）。

r dplyr

mic*_*hdn

2018 04-26

4
推荐指数

2
解决办法

9588
查看次数