删除缺少x%的列/行

Question

删除缺少x%的列/行

我想删除NA数据框中超过50%s的所有列或行.

这是我的解决方案:

# delete columns with more than 50% missings
miss <- c()
for(i in 1:ncol(data)) {
  if(length(which(is.na(data[,i]))) > 0.5*nrow(data)) miss <- append(miss,i) 
}
data2 <- data[,-miss]


# delete rows with more than 50% percent missing
miss2 <- c()
for(i in 1:nrow(data)) {
  if(length(which(is.na(data[i,]))) > 0.5*ncol(data)) miss2 <- append(miss2,i) 
}
data <- data[-miss,]

Run Code Online (Sandbox Code Playgroud)

但我正在寻找一个更好/更快的解决方案.

我也很感激dplyr解决方案

Answer 1

pic*_*ick 35

要删除具有一定数量NA的列,您可以使用 colMeans(is.na(...))

## Some sample data
set.seed(0)
dat <- matrix(1:100, 10, 10)
dat[sample(1:100, 50)] <- NA
dat <- data.frame(dat)

## Remove columns with more than 50% NA
dat[, -which(colMeans(is.na(dat)) > 0.5)]

Run Code Online (Sandbox Code Playgroud)

对于行类似,使用rowMeans.

所以它是`dat [-which(rowMeans(is.na(dat))> 0.5),]`用于行.谢谢! (3认同)

Answer 2

Nel*_*Gon 12

在此处tidyverse删除 x% NAs(50%)列的解决方案：

test_data <- data.frame(A=c(rep(NA,12),
                            520,233,522),
                        B = c(rep(10,12),
                              520,233,522))
# Remove all with %NA >= 50
# can just use >50


 test_data %>% 
  purrr::discard(~sum(is.na(.x))/length(.x)* 100 >=50)

Run Code Online (Sandbox Code Playgroud)

结果：

Run Code Online (Sandbox Code Playgroud)

Answer 3

Gue*_*sBF 5

dplyr 解决方案

对于select基于逻辑条件的列，我们可以使用选择助手where()，如下所示：

library(dplyr)

threshold <- 0.5 #for a 50% cut-off

df %>% select(where(~mean(is.na(.)) < threshold))

Run Code Online (Sandbox Code Playgroud)

对于filtering 行，dplyrsif_any()和if_all()将处理 100 或 0% 截止值的情况，如中所示df %>% filter(if_any(everything(), ~is.na(.x)))。对于具有其他阈值的解决方案，您可以使用rowMeans：

library(dplyr)

df %>% filter(rowMeans(is.na(.)) < threshold)

Run Code Online (Sandbox Code Playgroud)

归档时间：	10 年，10 月前
查看次数：	15628 次
最近记录：	6 年，10 月前