如何用这些列的中位数替换数值列中的 NA?

Tom*_*mmy 2 r dataframe tidyverse

我正在处理具有多种数据类型的数据框。我想仅用该特定列的中位数替换数值列上的 NA 值。看到过关于用平均值替换的问题,但不是中位数。我的 df 类似于以下代码:

my_groups <- c(rep("A", 5), rep("B",5))
my_values_1 <- c(4, 9, 10, NA, 5, 12, NA, 7, 11, 8)
my_values_2 <- c(3, NA, 4, 8, 2, 11, 15, NA, 9, 10)
my_df <- data.frame(my_groups, my_values_1, my_values_2)
my_df %>% select_if(is.numeric)
Run Code Online (Sandbox Code Playgroud)

这给了我数字列,但我无法弄清楚下一步。

G. *_*eck 5

这里有几种方法。测试数据框DF在(1)中定义,并且也用于其他方法。

1) dplyr - 交叉/合并

library(dplyr)

# test data
DF <- data.frame(a = c(NA, NA, 1, 2), b = 1:4, c = letters[1:4])

DF %>% 
  mutate(across(where(is.numeric), ~ coalesce(., median(., na.rm = TRUE))))
Run Code Online (Sandbox Code Playgroud)

给予:

    a b c
1 1.5 1 a
2 1.5 2 b
3 1.0 3 c
4 2.0 4 d
Run Code Online (Sandbox Code Playgroud)

2) dplyr/tidyr - 交叉/replace_na

library(dplyr)
library(tidyr)

DF %>% 
  mutate(across(where(is.numeric), ~ replace_na(., median(., na.rm = TRUE))))
Run Code Online (Sandbox Code Playgroud)

3) 动物园 - na.aggregate

library(zoo)

ok <- sapply(DF, is.numeric)
replace(DF, ok, na.aggregate(DF[ok], FUN = median))
Run Code Online (Sandbox Code Playgroud)

4) 基础R

na.median <- function(x) replace(x, is.na(x), median(x, na.rm = TRUE))   
ok <- sapply(DF, is.numeric)
replace(DF, ok, lapply(DF[ok], na.median))
Run Code Online (Sandbox Code Playgroud)

5) 底座 R - S3

na.median <- function(x, ...) UseMethod("na.median")
na.median.default <- identity
na.median.numeric <- function(x, ...) {
  replace(x, is.na(x), median(x, na.rm = TRUE))   
}

replace(DF, TRUE, lapply(DF, na.median))
Run Code Online (Sandbox Code Playgroud)

6) magrittr 我们首先制作一个副本DF以避免破坏它 - 尽管不建议您可以DF在最后一行使用(如果您可以覆盖它) - 然后使用 magrittr %<>%na.median来自(4)。

library(magrittr)

DF2 <- DF
DF2[sapply(DF2, is.numeric)] %<>% lapply(na.median)
Run Code Online (Sandbox Code Playgroud)

7) 崩溃 - ftmv ftmv或其同义词ftransformv提供紧凑的表达。这个使用na.median来自(4)。

library(collapse)

tfmv(DF, is.numeric, na.median)
Run Code Online (Sandbox Code Playgroud)