使用dplyr过滤data.frame中的完整案例(案例删除)

use*_*795 85 r dplyr magrittr

是否可以使用dplyr过滤data.frame以获取完整的案例？complete.cases当然,有一个所有变量的列表.但这是a)当有很多变量时很冗长,而b)当变量名称未知时是不可能的(例如在处理任何data.frame的函数中).

library(dplyr)
df = data.frame(
    x1 = c(1,2,3,NA),
    x2 = c(1,2,NA,5)
)

df %.%
  filter(complete.cases(x1,x2))

Run Code Online (Sandbox Code Playgroud)

试试这个:

df %>% na.omit

Run Code Online (Sandbox Code Playgroud)

或这个:

df %>% filter(complete.cases(.))

Run Code Online (Sandbox Code Playgroud)

或这个:

library(tidyr)
df %>% drop_na

Run Code Online (Sandbox Code Playgroud)

如果要根据一个变量的缺失进行过滤,请使用条件:

df %>% filter(!is.na(x1))

Run Code Online (Sandbox Code Playgroud)

要么

df %>% drop_na(x1)

Run Code Online (Sandbox Code Playgroud)

其他答案表明上述解决方案的na.omit速度要慢得多,但必须与它返回na.action属性中省略行的行索引这一事实相平衡,而上述其他解决方案则不然.

str(df %>% na.omit)
## 'data.frame':   2 obs. of  2 variables:
##  $ x1: num  1 2
##  $ x2: num  1 2
##  - attr(*, "na.action")= 'omit' Named int  3 4
##    ..- attr(*, "names")= chr  "3" "4"

Run Code Online (Sandbox Code Playgroud)

已添加更新以反映最新版本的dplyr和评论.

已添加更新以反映tidyr的最新版本和评论.

这对我有用:

df %>%
  filter(complete.cases(df))

Run Code Online (Sandbox Code Playgroud)

或者更一般:

library(dplyr) # 0.4
df %>% filter(complete.cases(.))

Run Code Online (Sandbox Code Playgroud)

这样做的好处是,在将数据传递给过滤器之前,可以在链中修改数据.

另一个有更多列的基准:

set.seed(123)
x <- sample(1e5,1e5*26, replace = TRUE)
x[sample(seq_along(x), 1e3)] <- NA
df <- as.data.frame(matrix(x, ncol = 26))
library(microbenchmark)
microbenchmark(
  na.omit = {df %>% na.omit},
  filter.anonymous = {df %>% (function(x) filter(x, complete.cases(x)))},
  rowSums = {df %>% filter(rowSums(is.na(.)) == 0L)},
  filter = {df %>% filter(complete.cases(.))},
  times = 20L,
  unit = "relative")

#Unit: relative
#             expr       min        lq    median         uq       max neval
 #         na.omit 12.252048 11.248707 11.327005 11.0623422 12.823233    20
 #filter.anonymous  1.149305  1.022891  1.013779  0.9948659  4.668691    20
 #         rowSums  2.281002  2.377807  2.420615  2.3467519  5.223077    20
 #          filter  1.000000  1.000000  1.000000  1.0000000  1.000000    20

Run Code Online (Sandbox Code Playgroud)

以下是Grothendieck回复的一些基准测试结果.na.omit()的时间是其他两个解决方案的20倍.我认为如果dplyr有一个函数可能作为过滤器的一部分会很好.

library('rbenchmark')
library('dplyr')

n = 5e6
n.na = 100000
df = data.frame(
    x1 = sample(1:10, n, replace=TRUE),
    x2 = sample(1:10, n, replace=TRUE)
)
df$x1[sample(1:n, n.na)] = NA
df$x2[sample(1:n, n.na)] = NA


benchmark(
    df %>% filter(complete.cases(x1,x2)),
    df %>% na.omit(),
    df %>% (function(x) filter(x, complete.cases(x)))()
    , replications=50)

#                                                  test replications elapsed relative
# 3 df %.% (function(x) filter(x, complete.cases(x)))()           50   5.422    1.000
# 1               df %.% filter(complete.cases(x1, x2))           50   6.262    1.155
# 2                                    df %.% na.omit()           50 109.618   20.217

Run Code Online (Sandbox Code Playgroud)

这是一个简短的函数,它允许您指定dplyr::select不应具有任何NA值的列(基本上可以理解的所有内容)(以pandas df.dropna()为模型):

drop_na <- function(data, ...){
    if (missing(...)){
        f = complete.cases(data)
    } else {
        f <- complete.cases(select_(data, .dots = lazyeval::lazy_dots(...)))
    }
    filter(data, f)
}

Run Code Online (Sandbox Code Playgroud)

[ drop_na现在是tidyr的一部分:以上可以替换为library("tidyr")]

例子:

library("dplyr")
df <- data.frame(a=c(1,2,3,4,NA), b=c(NA,1,2,3,4), ac=c(1,2,NA,3,4))
df %>% drop_na(a,b)
df %>% drop_na(starts_with("a"))
df %>% drop_na() # drops all rows with NAs

Run Code Online (Sandbox Code Playgroud)

试试这个

df[complete.cases(df),] #output to console

Run Code Online (Sandbox Code Playgroud)

或者甚至这个

df.complete <- df[complete.cases(df),] #assign to a new data.frame

Run Code Online (Sandbox Code Playgroud)

上面的命令负责检查data.frame中所有列(变量)的完整性.

归档时间：	11 年，9 月前
查看次数：	37199 次
最近记录：	7 年，2 月前

子集R数据帧导致神秘的NA行 49

使用图运行R脚本 28

是否有一个很好的R API来访问Google Docs？ 25

将月份缩写转换为数字月份,在R中 20

RCurl:站点响应HTTP 401代码而不使用WWW-Authenticate时的HTTP身份验证 15

弄清楚引入了什么版本的R函数 13

如何在每个块的基础上设置knitr块输出宽度？ 13

创建一个独特的日期序列 12

如何最好地将data.table的一列与同一data.table的另一列连接？ 10

在Rcpp中构造3D数组 10

如何在C#中枚举枚举？ 3620

仅存储使用Git更改的多个文件中的一个文件？ 2895

Flash CS4拒绝放手 2735

如何使用jQuery刷新页面？ 2361

什么是__init__.py？ 2074

什么是复制和交换习语？ 1907

Dockerfile中CMD和ENTRYPOINT有什么区别？ 1484

如何比较两个不同分支的文件？ 1430

使用pip安装特定的软件包版本 1199

获取Android上的当前时间和日期 1058