dplyr中多列的加权平均值

Question

dplyr中多列的加权平均值

我正在尝试使用dplyr计算多列的加权平均值.目前我仍然坚持使用summarize_each,这对我来说似乎是解决方案的一部分.这是一些示例代码:

library(dplyr)
f2a <- c(1,0,0,1)
f2b <- c(0,0,0,1)
f2c <- c(1,1,1,1)
clustervar <- c("A","B","B","A")
weight <- c(10,20,30,40)

df <- data.frame (f2a, f2b, f2c, clustervar, weight, stringsAsFactors=FALSE)
df

Run Code Online (Sandbox Code Playgroud)

我正在寻找的是类似的东西

df %>%
  group_by (clustervar) %>%
  summarise_each(funs(weighted.mean(weight)), select=cbind(clustervar, f2a:f2c))

Run Code Online (Sandbox Code Playgroud)

结果只是:

# A tibble: 2 × 4
  clustervar select4 select5 select6
       <chr>   <dbl>   <dbl>   <dbl>
1          A      25      25      25
2          B      25      25      25

Run Code Online (Sandbox Code Playgroud)

我在这里错过了什么？

Answer 1

ali*_*ire 15

您可以使用它summarise_at来指定要操作的列:

df %>% group_by(clustervar) %>% 
    summarise_at(vars(starts_with('f2')), 
                 funs(weighted.mean(., weight)))
#> # A tibble: 2 × 4
#>   clustervar   f2a   f2b   f2c
#>        <chr> <dbl> <dbl> <dbl>
#> 1          A     1   0.8     1
#> 2          B     0   0.0     1

Run Code Online (Sandbox Code Playgroud)

归档时间：	8 年，9 月前
查看次数：	2191 次
最近记录：	8 年，9 月前