从R中的文本中提取模式

Question

从R中的文本中提取模式

我的数据如下:

t <- "The data is like hi hi hi hi  and hi hi end"

Run Code Online (Sandbox Code Playgroud)

我的正则表达式是:

grammer <- "[[:space:]]*(hi)+[[:space:]]"

Run Code Online (Sandbox Code Playgroud)

执行以下两行后:

res <- gregexpr(grammer, t)
regmatches(t, res)

Run Code Online (Sandbox Code Playgroud)

我有输出:

 [[1]]
 [1] " hi " "hi "  "hi "  "hi "  " hi " "hi "

Run Code Online (Sandbox Code Playgroud)

但是,我想要的东西:" hi hi hi hi "和" hi hi "

Answer 1

Avi*_*Raj 4

你可以这样做，

> t<-"The data is like hi hi hi hi  and hi hi end"
> grammer<-"[[:space:]]*(hi[[:space:]])+[[:space:]]*"
> res<-gregexpr(grammer, t)
> regmatches(t, res)
[[1]]
[1] " hi hi hi hi  " " hi hi "

Run Code Online (Sandbox Code Playgroud)

或者

> grammer<-"[[:space:]]*(hi[[:space:]])+"
> res<-gregexpr(grammer, t)
> regmatches(t, res)
[[1]]
[1] " hi hi hi hi " " hi hi "

Run Code Online (Sandbox Code Playgroud)

或者

> t <- "The data is like hi hi hi hi and hi hi end hi"
> grammer<-"[[:space:]]*(hi\\>[[:space:]]?)+"
> res<-gregexpr(grammer, t)
> regmatches(t, res)
[[1]]
[1] " hi hi hi hi " " hi hi "       " hi"

Run Code Online (Sandbox Code Playgroud)

没有前导或后继空格。

> t <- "The data is like hi hi hi hi and hi hi end hi"
> grammer<-"hi\\>([[:space:]]hi)*"
> res<-gregexpr(grammer, t)
> regmatches(t, res)
[[1]]
[1] "hi hi hi hi" "hi hi"       "hi"

Run Code Online (Sandbox Code Playgroud)

解释：

[[:space:]]*匹配空格字符零次或多次。
(hi[[:space:]])+匹配字符串hi和后面的空格一次或多次。

归档时间：	11 年，3 月前
查看次数：	95 次
最近记录：	11 年，3 月前