grep的贪婪行为

Jos*_*ack 4 regex grep posix-ere regex-greedy

我认为在正则表达式中,“贪婪”适用于量词而不是整体匹配。然而,我观察到

grep -E --color=auto 'a+(ab)?' <(printf "aab")
Run Code Online (Sandbox Code Playgroud)

返回aab而不是aa b。

这同样适用于 sed。另一方面,在pcregrep等工具中,贪婪的其实是量词。这是grep的特定行为吗?

注意我检查了 grep (BSD grep) 2.5.1-FreeBSD 和 grep (GNU grep) 3.1

ogu*_*ail 5

术语匹配的描述中,POSIX 指出

对匹配序列的搜索从字符串的开头开始,并在找到与表达式匹配的第一个序列时停止,其中“第一个”被定义为“在字符串中最早开始”。如果模式允许可变数量的匹配字符,因此从该点开始有不止一个这样的序列,则匹配最长的这样的序列。

这个陈述清楚地回答了你的问题。该字符串aab包含从与 ERE 匹配的相同位置开始的两个子字符串a+(ab)?;这些是aaaab。后者最长,因此匹配。