按正则表达式模式选择列名

Par*_*gue 3 regex r dplyr

我想选择以下列四种方式之一开始的所有列:CB、LB、LW、CW,但不选择任何带有字符串“con”的列。

我目前的做法是:

tester <- df_ans[,names(df_ans) %in% colnames(df_ans)[grepl("^(LW|LB|CW|CB)[A-Z_0-9]*",colnames(df_ans))]]
tester <- tester[,names(tester) %in% colnames(tester)[!grepl("con",colnames(tester))]]
Run Code Online (Sandbox Code Playgroud)

在像 dplyr 这样的库中是否有更好/更有效的方法来做到这一点?

akr*_*run 6

我们可以用 matches

library(dplyr)
df %>%
   select(matches("^(CB|LB|LW|CW)"), -matches("con"))
#   CB1 LB2 CW3 LW20
#1   3   9   6    1
#2   3   3   4    5
#3   7   7   7    7
#4   5   8   7    2
#5   6   3   3    3
Run Code Online (Sandbox Code Playgroud)

数据

set.seed(24)
df <- as.data.frame(matrix(sample(1:9, 10 * 5, replace = TRUE),
       ncol = 10, dimnames = list(NULL, c("CB1", "LB2", "CW3", "WC1",
     "LW20", "conifer", "hercon", "other", "other2", "other3"))))
Run Code Online (Sandbox Code Playgroud)