在dplyr :: funs的命名参数中,我可以引用其他参数的名称吗？

Question

在dplyr :: funs的命名参数中,我可以引用其他参数的名称吗？

考虑以下:

library(tidyverse)

df <- tibble(x = rnorm(100), y = rnorm(100, 10, 2), z = x * y)

df %>% 
mutate_all(funs(avg = mean(.), dev = sd(.), scaled = (. - mean(.)) / sd(.)))

Run Code Online (Sandbox Code Playgroud)

有没有办法通过引用和列来避免调用mean和sd两次.我想到的是类似的东西avgdev

df %>% 
mutate_all(funs(avg = mean(.), dev = sd(.), scaled = (. - avg) / dev))

Run Code Online (Sandbox Code Playgroud)

显然,这是行不通的,因为没有列avg和dev,但是x_avg,x_dev,y_avg,y_dev,等.

有一个好办法,内部funs使用rlang的工具以编程方式创建这些列引用,这样我可以参考由以前命名的参数创建的列funs(当.是x,我将引用x_mean和x_dev计算x_scaled,等等)？

Answer 1

Tun*_*ung 5

我认为如果将数据转换为长格式会更容易

library(tidyverse)

set.seed(111)
df <- tibble(x = rnorm(100), y = rnorm(100, 10, 2), z = x * y)

df %>% 
  gather(key, value) %>% 
  group_by(key) %>% 
  mutate(avg    = mean(value),
         sd     = sd(value),
         scaled = (value - avg) / sd)
#> # A tibble: 300 x 5
#> # Groups:   key [3]
#>    key    value     avg    sd scaled
#>    <chr>  <dbl>   <dbl> <dbl>  <dbl>
#>  1 x      0.235 -0.0128  1.07  0.232
#>  2 x     -0.331 -0.0128  1.07 -0.297
#>  3 x     -0.312 -0.0128  1.07 -0.279
#>  4 x     -2.30  -0.0128  1.07 -2.14 
#>  5 x     -0.171 -0.0128  1.07 -0.148
#>  6 x      0.140 -0.0128  1.07  0.143
#>  7 x     -1.50  -0.0128  1.07 -1.39 
#>  8 x     -1.01  -0.0128  1.07 -0.931
#>  9 x     -0.948 -0.0128  1.07 -0.874
#> 10 x     -0.494 -0.0128  1.07 -0.449
#> # ... with 290 more rows

Run Code Online (Sandbox Code Playgroud)

^{由reprex包创建于2018-11-04 (v0.2.1.9000)}

值得注意的是,如果需要,可以使用`spread`将结果转换回宽格式. (2认同)

Answer 2

Wei*_*ong 1

这看起来有点复杂，但它有效：

scaled <- function(col_name, x, y) {
  col_name <- deparse(substitute(col_name))
  avg <- eval.parent(as.symbol(paste0(col_name, x)))
  dev <- eval.parent(as.symbol(paste0(col_name, y)))
  (eval.parent(as.symbol(col_name)) - avg) / dev
}

df %>%
  mutate_all(funs(avg = mean(.), dev = sd(.), scaled = scaled(., "_avg", "_dev")))

Run Code Online (Sandbox Code Playgroud)

归档时间：	6 年，11 月前
查看次数：	91 次
最近记录：	6 年，11 月前