在计算其他摘要统计信息的同时使用n()

Art*_*ito 6 r summary dplyr

dplyr根据以下数据集准备汇总表时遇到问题:

set.seed(1)
df <- data.frame(rep(sample(c(2012,2016),10, replace = T)),
                 sample(c('Treat','Control'),10,replace = T),
                 runif(10,0,1),
                 runif(10,0,1),
                 runif(10,0,1))

 colnames(df) <- c('Year','Group','V1','V2','V3')
Run Code Online (Sandbox Code Playgroud)

我要计算的平均数,中位数,标准差和计数观测由每个组合的数量YearGroup.

我已成功使用此代码获取mean,median并且sd:

summary.table = df %>% 
    group_by(Year, Group) %>%
    summarise_all(funs(n(), sd, median, mean))
Run Code Online (Sandbox Code Playgroud)

但是,我不知道如何n()funs()命令中引入该函数.它给了我计数V1,V2V3.这是多余的,因为我只想要样本的大小.我试过介绍

    mutate(N = n()) %>%
Run Code Online (Sandbox Code Playgroud)

在线之前和之后group_by(),但它没有给我我想要的东西.

有帮助吗?


编辑:我没有让我怀疑清楚.问题是代码给了我不需要的列,因为观察的数量V1对我来说已经足够了.

ali*_*ire 7

N在汇总之前添加列作为额外的分组列:

library(dplyr)
set.seed(1)

df <- data.frame(Year = rep(sample(c(2012, 2016), 10, replace = TRUE)),
                 Group = sample(c('Treat', 'Control'), 10, replace = TRUE),
                 V1 = runif(10, 0, 1),
                 V2 = runif(10, 0, 1),
                 V3 = runif(10, 0, 1))


df2 <- df %>% 
    group_by(Year, Group) %>% 
    group_by(N = n(), add = TRUE) %>% 
    summarise_all(funs(sd, median, mean))

df2
#> # A tibble: 4 x 12
#> # Groups:   Year, Group [?]
#>    Year   Group     N      V1_sd      V2_sd     V3_sd V1_median V2_median
#>   <dbl>  <fctr> <int>      <dbl>      <dbl>     <dbl>     <dbl>     <dbl>
#> 1  2012 Control     2 0.05170954 0.29422635 0.1152669 0.3037848 0.6193239
#> 2  2012   Treat     2 0.51092899 0.08307494 0.1229560 0.5734239 0.5408230
#> 3  2016 Control     3 0.32043716 0.34402222 0.3822026 0.3823880 0.4935413
#> 4  2016   Treat     3 0.37759667 0.29566739 0.1233162 0.3861141 0.6684667
#> # ... with 4 more variables: V3_median <dbl>, V1_mean <dbl>,
#> #   V2_mean <dbl>, V3_mean <dbl>
Run Code Online (Sandbox Code Playgroud)


小智 2

您是否遇到与我相同的错误:

\n\n
\n

\xe2\x80\x9c n() 中的错误:不应直接调用函数\xe2\x80\x9d

\n
\n\n

如果是这样,这里有一个堆栈问题可能会有所帮助:\n dplyr:“n() 中的错误:不应直接调用函数”

\n\n

该解决方案似乎plyr在存在冲突的地方分离并重新加载dplyr库。

\n