And*_*rie 15 regex grep r gsub
我正在寻找一种使用R中的正则表达式返回引用的优雅方法.我解释一下:
假设我想找到以月名开头的字符串:
x <- c("May, 1, 2011", "30 June 2011")
grep("May|^June", x, value=TRUE)
[1] "May, 1, 2011"
Run Code Online (Sandbox Code Playgroud)
这有效,但我真的想隔离月份(即"五月",而不是整个匹配的字符串.
因此,可以使用参数gsub返回后向引用substitute.但这有两个问题:
gsub返回原始字符串.这显然不是我想要的:代码和结果:
gsub(".*(^May|^June).*", "\\1", x)
[1] "May" "30 June 2011"
Run Code Online (Sandbox Code Playgroud)
我可以通过执行各种额外的检查来编写解决方法,但这很快变得非常混乱.
为了清楚起见,期望的结果应该是:
[1] "May" NA
Run Code Online (Sandbox Code Playgroud)
有没有一种简单的方法来实现这一目标?
NPE*_*NPE 20
regexpr类似于grep,但返回每个字符串中(第一个)匹配的位置和长度:
> x <- c("May, 1, 2011", "30 June 2011", "June 2012")
> m <- regexpr("May|^June", x)
> m
[1] 1 -1 1
attr(,"match.length")
[1] 3 -1 4
Run Code Online (Sandbox Code Playgroud)
这意味着第一个字符串的长度为3的匹配位于第1个位置,第二个字符串没有匹配,第三个字符串在位置1处具有长度为4的匹配.
要提取匹配项,您可以使用以下内容:
> m[m < 0] = NA
> substr(x, m, m + attr(m, "match.length") - 1)
[1] "May" NA "June"
Run Code Online (Sandbox Code Playgroud)
该stringr软件包具有完全用于此目的的功能:
library(stringr)
x <- c("May, 1, 2011", "30 June 2011", "June 2012")
str_extract(x, "May|^June")
# [1] "May" NA "June"
Run Code Online (Sandbox Code Playgroud)
它是一个相当薄的包装器regexpr,但stringr通常通过比基本R函数更一致来使字符串处理更容易.