使用dplyr过滤包含列的部分字符串的行

Question

使用dplyr过滤包含列的部分字符串的行

Kar*_*der 5 r filter dplyr summarize mutate

假设我有一个像

term     cnt
apple     10
apples     5
a apple on 3
blue pears 3
pears      1

Run Code Online (Sandbox Code Playgroud)

如何过滤此列中的所有部分找到的字符串，例如得到结果

term     cnt
apple     10
pears      1

Run Code Online (Sandbox Code Playgroud)

无需指出我要过滤的字词（主语），而是通过自引用方式（即，它会针对整个列检查每个字词，并删除部分匹配的字词）。令牌的数量不受限制，字符串的一致性也不受限制（即“ apples”将与“ apple”匹配）。这将导致基于dplyr的广义反向版本

d[grep("^apple$|^pears$", d$term), ]

Run Code Online (Sandbox Code Playgroud)

另外，有趣的是，使用这种去部门化来求和，例如

term     cnt
apple     18
pears      4

Run Code Online (Sandbox Code Playgroud)

我无法使其与contains（）或grep（）一起使用。

谢谢

Answer 1

amr*_*rrs 2

希望能得到完整的答案。不是很惯用（正如 Pythonista 的说法），但有人可以建议对此进行改进：

> ssss <- data.frame(c('apple','red apple','apples','pears','blue pears'),c(15,3,10,4,3))
> 
> names(ssss) <- c('Fruit','Count')
> 
> ssss
       Fruit Count
1      apple    15
2  red apple     3
3     apples    10
4      pears     4
5 blue pears     3
> 
> root_list <- as.vector(ssss$Fruit[unlist(lapply(ssss$Fruit,function(x){length(grep(x,ssss$Fruit))>1}))])
> 
> 
> ssss %>% filter(ssss$Fruit %in% root_list)
  Fruit Count
1 apple    15
2 pears     4
> 
> data <- data.frame(lapply(root_list, function(x){y <- stringr::str_extract(ssss$Fruit,x); ifelse(is.na(y),'',y)}))
> 
> cols <- colnames(data)
> 
> #data$x <- do.call(paste0, c(data[cols]))
> #for (co in cols) data[co] <- NULL
> 
> ssss$Fruit <- do.call(paste0, c(data[cols]))
> 
> ssss %>% group_by(Fruit) %>% summarise(val = sum(Count))
# A tibble: 2 x 2
  Fruit   val
  <chr> <dbl>
1 apple    28
2 pears     7
>

Run Code Online (Sandbox Code Playgroud)

归档时间：	8 年，8 月前
查看次数：	4071 次
最近记录：	8 年，8 月前