使用来自R中dplyr的加权平均值的汇总

Tob*_*ren 11 r dplyr

我正在尝试使用dplyr整理数据集.我的变量包含百分比和简单的值(在这种情况下,页面查看和跳出率).我试图用这种方式总结它们:

require(dplyr)
df<-df%>%
   group_by(pagename)%>%
   summarise(pageviews=sum(pageviews), bounceRate= weighted.mean(bounceRate,pageviews))
Run Code Online (Sandbox Code Playgroud)

但这回归:

 Error: 'x' and 'w' must have the same length
Run Code Online (Sandbox Code Playgroud)

我的数据集在页面浏览量和跳出率方面都没有任何NA.我不知道我在做什么错了,也许summarise()不工作weighted.mean()

编辑

我添加了一些数据:

### Source: local data frame [4 x 3]

###               pagename bounceRate pageviews
                    (chr)      (dbl)     (dbl)
###1                url1   72.22222      1176
###2                url2   46.42857       733
###3                url2   76.92308       457
###4                url3   62.06897       601
Run Code Online (Sandbox Code Playgroud)

MrF*_*ick 14

summarize()命令按照它们在命令中出现的顺序替换变量,因此,由于您要更改网页浏览的值,因此在weighted.mean中使用了该新值.使用不同的名称更安全

df %>%
   group_by(pagename)%>%
   summarise(pageviews_sum = sum(pageviews), 
      bounceRate_mean = weighted.mean(bounceRate,pageviews))
Run Code Online (Sandbox Code Playgroud)

如果你真的想要,你可以在以后重命名

df %>%
   group_by(pagename) %>%
   summarise(pageviews_sum = sum(pageviews), 
      bounceRate_mean = weighted.mean(bounceRate,pageviews)) %>% 
   rename(pageviews = pageviews_sum, bounceRate = bounceRate_mean)
Run Code Online (Sandbox Code Playgroud)

  • 简单地反转总结内的计算顺序就足够了:`df%>%group_by(pagename)%>%summary(bounceRate = weighted.mean(bounceRate,pageviews),pageviews = sum(pageviews))` (5认同)

Tob*_*ren 5

我找到了解决方案。由于在 之前summarise(pageviews=sum(pageviews)评估, 的长度减少,因此比 短,这会触发错误。 bounceRate= weighted.mean(bounceRate,pageviews)pageviewsbounceRate

解决方法很简单,切换一下即可:

require(dplyr)
df<-df%>%
  group_by(pagename)%>%
  summarise(bounceRate= weighted.mean(bounceRate,pageviews),pageviews=sum(pageviews))
Run Code Online (Sandbox Code Playgroud)