R中plyr :: ldply(tapply)的dplyr等价物是什么?

Jas*_*lns 9 r plyr dplyr tidyr

最终,我试图实现类似于以下的东西,但是利用dplyr而不是plyr:

library(dplyr)  
probs = seq(0, 1, 0.1)

plyr::ldply(tapply(mtcars$mpg, 
                   mtcars$cyl, 
                   function(x) { quantile(x, probs = probs) }))

#   .id   0%   10%   20%   30%   40%  50%   60%   70%   80%   90% 100%
# 1   4 21.4 21.50 22.80 22.80 24.40 26.0 27.30 30.40 30.40 32.40 33.9
# 2   6 17.8 17.98 18.32 18.98 19.40 19.7 20.48 21.00 21.00 21.16 21.4
# 3   8 10.4 11.27 13.90 14.66 15.04 15.2 15.44 15.86 16.76 18.28 19.2
Run Code Online (Sandbox Code Playgroud)

dplyr我能想到的最好的等价物是这样的:

library(tidyr)
probs = seq(0, 1, 0.1)

mtcars %>%
  group_by(cyl) %>%
  do(data.frame(prob = probs, stat = quantile(.$mpg, probs = probs))) %>%
  spread(prob, stat)

#   cyl    0   0.1   0.2   0.3   0.4  0.5   0.6   0.7   0.8   0.9    1
# 1   4 21.4 21.50 22.80 22.80 24.40 26.0 27.30 30.40 30.40 32.40 33.9
# 2   6 17.8 17.98 18.32 18.98 19.40 19.7 20.48 21.00 21.00 21.16 21.4
# 3   8 10.4 11.27 13.90 14.66 15.04 15.2 15.44 15.86 16.76 18.28 19.2
Run Code Online (Sandbox Code Playgroud)

请注意,II也需要使用tidyr::spread.另外,请注意我已经失去了%在更换的利益为格式的列标题.idcyl第一列.

问题:

  1. 是否有更好的dplyr基础方法来完成这个 tapply %>% ldply链?
  2. 有没有办法在不跳过太多篮球的情况下获得两全其美?也就是说,获取第一列的% 格式和正确的cyl列名?

akr*_*run 7

运用 dplyr

library(dplyr)
mtcars %>% 
   group_by(cyl) %>% 
   do(data.frame(as.list(quantile(.$mpg,probs=probs)), check.names=FALSE))
#  cyl   0%   10%   20%   30%   40%  50%   60%   70%   80%   90% 100%
#1   4 21.4 21.50 22.80 22.80 24.40 26.0 27.30 30.40 30.40 32.40 33.9
#2   6 17.8 17.98 18.32 18.98 19.40 19.7 20.48 21.00 21.00 21.16 21.4
#3   8 10.4 11.27 13.90 14.66 15.04 15.2 15.44 15.86 16.76 18.28 19.2
Run Code Online (Sandbox Code Playgroud)

或者使用选项 data.table

library(data.table)
as.data.table(mtcars)[, as.list(quantile(mpg, probs=probs)) , cyl]
#   cyl   0%   10%   20%   30%   40%  50%   60%   70%   80%   90% 100%
#1:   6 17.8 17.98 18.32 18.98 19.40 19.7 20.48 21.00 21.00 21.16 21.4
#2:   4 21.4 21.50 22.80 22.80 24.40 26.0 27.30 30.40 30.40 32.40 33.9
#3:   8 10.4 11.27 13.90 14.66 15.04 15.2 15.44 15.86 16.76 18.28 19.2
Run Code Online (Sandbox Code Playgroud)

  • @JasonAlzkains它是`data.frame`中的一个参数,其中默认选项是`check.names=TRUE`。因此,如果列名以非数字值开头,则会在其后附加“X”。相关代码是 ` if (check.names) vnames <- make.names(vnames, unique = TRUE)` (2认同)

sha*_*dow 5

@ akrun的版本很好,但我会data_frame_do声明中使用.

mtcars %>% 
  group_by(cyl) %>% 
  do(data_frame_(quantile(.$mpg, probs = probs)))
## Source: local data frame [3 x 12]
## Groups: cyl
## 
##   cyl   0%   10%   20%   30%   40%  50%   60%   70%   80%   90% 100%
## 1   4 21.4 21.50 22.80 22.80 24.40 26.0 27.30 30.40 30.40 32.40 33.9
## 2   6 17.8 17.98 18.32 18.98 19.40 19.7 20.48 21.00 21.00 21.16 21.4
## 3   8 10.4 11.27 13.90 14.66 15.04 15.2 15.44 15.86 16.76 18.28 19.2
Run Code Online (Sandbox Code Playgroud)

在进一步研究其原因之后,它看起来data_frame_与通常使用的SE逻辑不同dplyr.data_frame_只需要一个参数,columns并且真的需要一个lazy_dots参数.

如果它得到一个向量,它就可以工作,因为对各个参数的惰性求值是有效的.所以data_frame_在这样的矢量上使用这个功能实际上可能是一个bug.