raku:最长的比赛不做最长的比赛,但在第一场比赛后退出

lis*_*tor 7 regex match raku

我正在使用 Raku 2020.10。

根据此页面,https://docs.raku.org/language/regexes#Longest_alternation:_| , "|" 或带引号的列表是最长的匹配项。

> say "youtube" ~~ / < you tube > /
?you?                                   # expected "tube" to win the match
> say "youtube" ~~ /  you | tube  /
?you?                                   # expected "tube" to win the match
> say "youtube" ~~ / tube | you /
?you?                                   # expected "tube" to win the match
Run Code Online (Sandbox Code Playgroud)

现在尝试“||” 而不是“|”:

> say "tubeyou" ~~ / you || tube /
?tube?                                # longest match or first match?
> say "youtube" ~~ / you || tube /
?you?                                 # first match?
Run Code Online (Sandbox Code Playgroud)

现在尝试网页示例:

> say 'food' ~~ / f | fo | foo | food /
?food?                                                 # works as expected
> say 'foodtubes' ~~ / f | fo | foo | food | tubes /
?food?                                                 # expected "tubes" (5 chars) to win
> say 'foodtubes' ~~ / tubes | f | fo | foo | food /
?food?
> say 'foodtubes' ~~ / dt /
?dt?
> say 'foodtubes' ~~ / dt | food /
?food?
> say 'foodtubes' ~~ / dt | food | tubes /
?food?
Run Code Online (Sandbox Code Playgroud)

看起来像带有“|”的匹配引擎 在第一场有点长的成功比赛后退出。或者我做错了什么?

谢谢 !!!

cod*_*ons 7

(这个答案建立在@donaldh 在评论中已经说过的内容之上)。

这是一个非常好的问题,因为它涉及到一些经常让人们误会正则表达式如何搜索字符串的问题:正则表达式从根本上一次搜索一个字符并返回它找到的第一个匹配项。您可以修改此行为(例如,环顾考虑其他字符;多个标志使正则表达式返回多个结果)。但是,如果您从对 regex 默认情况下的行为方式的基本了解开始,许多这些问题就会变得更加清晰。

因此,让我们将其应用于示例的一个轻微变体:

> `youtube' ~~ / you | ..| tube /
?you?
Run Code Online (Sandbox Code Playgroud)

以下是正则表达式引擎如何看待它(在高级/简化术语中),逐个字符:

pos:0    youtube
         ^
branch 1 wants 'y'.                Match!
branch 2 wants . (aka, anything).  Match!
branch 3 wants 't'                 No match :(

pos:1    youtube
          ^
branch 1 wants 'o'.                Match!
branch 2 wants .                   Match!
branch 2 completed with a length of 2

pos:2    youtube
           ^
branch 1 wants 'u'.                Match!
branch 1 completed with a length of 3

...all branches completed, and 2 matches found.  Return the longest match found.

?you?
Run Code Online (Sandbox Code Playgroud)

这种逻辑的结果是,与往常一样,正则表达式返回字符串中的第一个匹配项(或者,更具体地说,从字符串中最早位置开始的匹配项)。|当多场比赛在同一个地方开始时,踢球的行为。当这种情况发生时,|意味着我们得到了最长的匹配。

相反,对于'youtube' ~~ / you | tube /,我们永远不会有多个匹配从同一个地方开始,所以我们永远不需要依赖 的行为|。(我们有多个比赛中的字符串,你可以用全局搜索看到:'youtube' ~~ m:g/ you | tube /

如果您想要字符串中所有匹配项中最长的(而不是第一个匹配项的最长选项),那么您可以使用以下内容:

('youtube' ~~ m:g/ you | tube /).sort(*.chars).tail
Run Code Online (Sandbox Code Playgroud)