根据特定值过滤data.frame的每一列

Ste*_*pré 14 r dplyr

请考虑以下数据框:

df <- data.frame(replicate(5,sample(1:10,10,rep=TRUE)))

#   X1 X2 X3 X4 X5
#1   7  9  8  4 10
#2   2  4  9  4  9
#3   2  7  8  8  6
#4   8  9  6  6  4
#5   5  2  1  4  6
#6   8  2  2  1  7
#7   3  8  6  1  6
#8   3  8  5  9  8
#9   6  2  3 10  7
#10  2  7  4  2  9
Run Code Online (Sandbox Code Playgroud)

dplyr对于大于2的所有值,使用,如何对每列进行过滤(不隐式命名).

一种模仿假设的东西 filter_each(funs(. >= 2))

现在我正在做:

df %>% filter(X1 >= 2, X2 >= 2, X3 >= 2, X4 >= 2, X5 >= 2)
Run Code Online (Sandbox Code Playgroud)

这相当于:

df %>% filter(!rowSums(. < 2))
Run Code Online (Sandbox Code Playgroud)

注意:假设我想只过滤前4列,我会这样做:

df %>% filter(X1 >= 2, X2 >= 2, X3 >= 2, X4 >= 2) 
Run Code Online (Sandbox Code Playgroud)

要么

df %>% filter(!rowSums(.[-5] < 2))
Run Code Online (Sandbox Code Playgroud)

会有更有效的替代方案吗?

编辑:子问题

如何指定列名并模仿假设filter_each(funs(. >= 2), -X5)

基准子问题

由于我必须在大型数据集上运行此操作,因此我对这些建议进行了基准测试.

df <- data.frame(replicate(5,sample(1:10,10e6,rep=TRUE)))

mbm <- microbenchmark(
Marat = df %>% filter(!rowSums(.[,!colnames(.) %in% "X5", drop = FALSE] < 2)),
Richard = filter_(df, .dots = lapply(names(df)[names(df) != "X5"], function(x, y) { call(">=", as.name(x), y) }, 2)),
Docendo = df %>% slice(which(!rowSums(select(., -matches("X5")) < 2L))),
times = 50
)
Run Code Online (Sandbox Code Playgroud)

结果如下:

#Unit: milliseconds
#    expr       min        lq      mean    median       uq      max neval
#   Marat 1209.1235 1320.3233 1358.7994 1362.0590 1390.342 1448.458    50
# Richard 1151.7691 1196.3060 1222.9900 1216.3936 1256.191 1266.669    50
# Docendo  874.0247  933.1399  983.5435  985.3697 1026.901 1053.407    50
Run Code Online (Sandbox Code Playgroud)

在此输入图像描述

Ric*_*ven 6

这是一个让选择名称变得相当简单的想法.您可以设置要发送到.dots参数的调用列表filter_().首先是创建未评估调用的函数.

Call <- function(x, value, fun = ">=") call(fun, as.name(x), value)
Run Code Online (Sandbox Code Playgroud)

现在我们使用filter_(),将一个调用列表传递给.dots参数lapply(),选择你想要的任何名称和值.

nm <- names(df) != "X5"
filter_(df, .dots = lapply(names(df)[nm], Call, 2L))
#   X1 X2 X3 X4 X5
# 1  6  5  7  3  1
# 2  8 10  3  6  5
# 3  5  7 10  2  5
# 4  3  4  2  9  9
# 5  8  3  5  6  2
# 6  9  3  4 10  9
# 7  2  9  7  9  8
Run Code Online (Sandbox Code Playgroud)

您可以查看由Call()(例如)X4X5with 创建的未评估的调用

lapply(names(df)[4:5], Call, 2L)
# [[1]]
# X4 >= 2L
#
# [[2]]
# X5 >= 2L
Run Code Online (Sandbox Code Playgroud)

所以,如果你调整names()X的说法lapply(),你应该罚款.


Mar*_*pov 5

如何指定列名并模仿假设的filter_each(funs(.> = 2), - X5)?

它可能不是最优雅的解决方案,但它完成了工作:

df %>% filter(!rowSums(.[,!colnames(.)%in%'X5',drop=F] < 2))
Run Code Online (Sandbox Code Playgroud)

如果有多个排除列(例如X3,X5),可以使用:

df %>% filter(!rowSums(.[,!colnames(.)%in%c('X3','X5'),drop=F] < 2))
Run Code Online (Sandbox Code Playgroud)

  • 使用`names`而不是`colnames`可能会更快,因为`names`是原始的 (2认同)

tal*_*lat 4

这是另一个选项,slice其使用方式与filter本例类似。主要区别在于,您提供一个整数向量,而slice接受filter一个逻辑向量。

df %>% slice(which(!rowSums(select(., -matches("X5")) < 2L)))
Run Code Online (Sandbox Code Playgroud)

我喜欢这种方法的原因是,因为我们select在内部使用rowSums,所以您可以利用select提供的所有特殊功能,matches例如。


让我们看看它与其他答案的比较:

df <- data.frame(replicate(5,sample(1:10,10e6,rep=TRUE)))

mbm <- microbenchmark(
    Marat = df %>% filter(!rowSums(.[,!colnames(.) %in% "X5", drop = FALSE] < 2)),
    Richard = filter_(df, .dots = lapply(names(df)[names(df) != "X5"], function(x, y) { call(">=", as.name(x), y) }, 2)),
    dd_slice = df %>% slice(which(!rowSums(select(., -matches("X5")) < 2L))),
    times = 50L,
    unit = "relative"
)

#Unit: relative
#     expr      min       lq   median       uq      max neval
#    Marat 1.304216 1.290695 1.290127 1.288473 1.290609    50
#  Richard 1.139796 1.146942 1.124295 1.159715 1.160689    50
# dd_slice 1.000000 1.000000 1.000000 1.000000 1.000000    50
Run Code Online (Sandbox Code Playgroud)

图片

编辑说明:更新为更可靠的基准测试,重复 50 次(次数 = 50L)。


在评论基础 R 与该slice方法具有相同的速度(没有具体说明基础 R 方法的确切含义)之后,我决定使用与我的答案中几乎相同的方法与基础 R 进行比较来更新我的答案。对于使用的基本 RI:

base = df[!rowSums(df[-5L] < 2L), ],
base_which = df[which(!rowSums(df[-5L] < 2L)), ]
Run Code Online (Sandbox Code Playgroud)

基准:

df <- data.frame(replicate(5,sample(1:10,10e6,rep=TRUE)))

mbm <- microbenchmark(
  Marat = df %>% filter(!rowSums(.[,!colnames(.) %in% "X5", drop = FALSE] < 2)),
  Richard = filter_(df, .dots = lapply(names(df)[names(df) != "X5"], function(x, y) { call(">=", as.name(x), y) }, 2)),
  dd_slice = df %>% slice(which(!rowSums(select(., -matches("X5")) < 2L))),
  base = df[!rowSums(df[-5L] < 2L), ],
  base_which = df[which(!rowSums(df[-5L] < 2L)), ],
  times = 50L,
  unit = "relative"
)

#Unit: relative
#       expr      min       lq   median       uq      max neval
#      Marat 1.265692 1.279057 1.298513 1.279167 1.203794    50
#    Richard 1.124045 1.160075 1.163240 1.169573 1.076267    50
#   dd_slice 1.000000 1.000000 1.000000 1.000000 1.000000    50
#       base 2.784058 2.769062 2.710305 2.669699 2.576825    50
# base_which 1.458339 1.477679 1.451617 1.419686 1.412090    50
Run Code Online (Sandbox Code Playgroud)

图2

这两种基本 R 方法实际上并没有更好或可比的性能。

编辑注释 #2:添加带有基本 R 选项的基准测试。