想要根据因子列获取与平均值偏差的值的数据框

Dyl*_*ijk 1 r dplyr data-cleaning tidyverse data-wrangling

例子:

所以可以说我有这个数据框。

x = data.frame(factor = as.factor(c('a','a','b','b','c','c')),value1 = c(1,3,2,4,5,3), value2 = c(7,9,3,4,9,3))


    factor value1 value2
1      a      1      7
2      a      3      9
3      b      2      3
4      b      4      4
5      c      5      9
6      c      3      3
Run Code Online (Sandbox Code Playgroud)

我知道如何获得每个因素的平均值,我使用这种方法:

aggregate(x[,c(2,3)], list(x$factor), mean, na.rm = T )

Run Code Online (Sandbox Code Playgroud)

这给了我以下输出:

  Group.1 value1 value2
1       a      2    8.0
2       b      3    3.5
3       c      4    6.0
Run Code Online (Sandbox Code Playgroud)

我现在如何从原始数据框中的每个值中减去其因子的相应平均值。我使用的实际数据集很大,所以需要有一个很好的方法,我已经设法做到了,但我使用了复杂的 for 循环。

所以我想要的输出是:

  factor value1 value2
1      a     -1   -1.0
2      a      1    1.0
3      b     -1   -0.5
4      b      1    0.5
5      c      1    3.0
6      c     -1   -3.0
Run Code Online (Sandbox Code Playgroud)

任何帮助都会很棒。谢谢。

eko*_*oam 5

一个dplyr解决方案

library(dplyr)
x %>% group_by(factor) %>% mutate(across(c(value1, value2), ~. - mean(.)))
Run Code Online (Sandbox Code Playgroud)

输出

# A tibble: 6 x 3
# Groups:   factor [3]
  factor value1 value2
  <fct>   <dbl>  <dbl>
1 a          -1   -1  
2 a           1    1  
3 b          -1   -0.5
4 b           1    0.5
5 c           1    3  
6 c          -1   -3  
Run Code Online (Sandbox Code Playgroud)

  • 是的,但由于 R 使用向量计算,因此更准确的说法是,对于组“a”,该公式转换为“c(1,3) -mean(c(1,3))”。 (2认同)