Tom*_*mmy 2 r dataframe tidyverse
我正在处理具有多种数据类型的数据框。我想仅用该特定列的中位数替换数值列上的 NA 值。我看到过关于用平均值替换的问题,但不是中位数。我的 df 类似于以下代码:
my_groups <- c(rep("A", 5), rep("B",5))
my_values_1 <- c(4, 9, 10, NA, 5, 12, NA, 7, 11, 8)
my_values_2 <- c(3, NA, 4, 8, 2, 11, 15, NA, 9, 10)
my_df <- data.frame(my_groups, my_values_1, my_values_2)
my_df %>% select_if(is.numeric)
Run Code Online (Sandbox Code Playgroud)
这给了我数字列,但我无法弄清楚下一步。
这里有几种方法。测试数据框DF在(1)中定义,并且也用于其他方法。
1) dplyr - 交叉/合并
library(dplyr)
# test data
DF <- data.frame(a = c(NA, NA, 1, 2), b = 1:4, c = letters[1:4])
DF %>%
mutate(across(where(is.numeric), ~ coalesce(., median(., na.rm = TRUE))))
Run Code Online (Sandbox Code Playgroud)
给予:
a b c
1 1.5 1 a
2 1.5 2 b
3 1.0 3 c
4 2.0 4 d
Run Code Online (Sandbox Code Playgroud)
2) dplyr/tidyr - 交叉/replace_na
library(dplyr)
library(tidyr)
DF %>%
mutate(across(where(is.numeric), ~ replace_na(., median(., na.rm = TRUE))))
Run Code Online (Sandbox Code Playgroud)
3) 动物园 - na.aggregate
library(zoo)
ok <- sapply(DF, is.numeric)
replace(DF, ok, na.aggregate(DF[ok], FUN = median))
Run Code Online (Sandbox Code Playgroud)
4) 基础R
na.median <- function(x) replace(x, is.na(x), median(x, na.rm = TRUE))
ok <- sapply(DF, is.numeric)
replace(DF, ok, lapply(DF[ok], na.median))
Run Code Online (Sandbox Code Playgroud)
5) 底座 R - S3
na.median <- function(x, ...) UseMethod("na.median")
na.median.default <- identity
na.median.numeric <- function(x, ...) {
replace(x, is.na(x), median(x, na.rm = TRUE))
}
replace(DF, TRUE, lapply(DF, na.median))
Run Code Online (Sandbox Code Playgroud)
6) magrittr 我们首先制作一个副本DF以避免破坏它 - 尽管不建议您可以DF在最后一行使用(如果您可以覆盖它) - 然后使用 magrittr %<>%。 na.median来自(4)。
library(magrittr)
DF2 <- DF
DF2[sapply(DF2, is.numeric)] %<>% lapply(na.median)
Run Code Online (Sandbox Code Playgroud)
7) 崩溃 - ftmv ftmv或其同义词ftransformv提供紧凑的表达。这个使用na.median来自(4)。
library(collapse)
tfmv(DF, is.numeric, na.median)
Run Code Online (Sandbox Code Playgroud)