如何使用正则表达式找到最短的重叠匹配?

rya*_*yan 15 python regex

我对正则表达式还是比较新的.我正在尝试找到与特定模式匹配的最短文本字符串,但如果最短模式是较大匹配的子字符串,则会遇到问题.例如:

import re
string = "A|B|A|B|C|D|E|F|G"
my_pattern = 'a.*?b.*?c'

my_regex = re.compile(my_pattern, re.DOTALL|re.IGNORECASE)
matches = my_regex.findall(string)

for match in matches:
    print match
Run Code Online (Sandbox Code Playgroud)

打印:

A|B|A|B|C
Run Code Online (Sandbox Code Playgroud)

但是我希望它能回归:

A|B|C
Run Code Online (Sandbox Code Playgroud)

有没有办法做到这一点,而不必遍历每个匹配,看它是否包含匹配的子字符串?

Tim*_*ker 13

与此处的大多数其他答案相反,这可以使用带有捕获组正向前瞻断言在单个正则表达式中完成:

>>> my_pattern = '(?=(a.*?b.*?c))'
>>> my_regex = re.compile(my_pattern, re.DOTALL|re.IGNORECASE)
>>> matches = my_regex.findall(string)
>>> print min(matches, key=len)
A|B|C
Run Code Online (Sandbox Code Playgroud)

findall()将返回所有可能的匹配,因此您需要min()获得最短的匹配.

这是如何工作的:

  • 我们不匹配此正则表达式中的任何文本,只是匹配字符串中的位置(正则表达式引擎在匹配尝试期间逐步执行).
  • 在每个位置,正则表达式引擎向前看,看看你的正则表达式是否匹配在这个位置.
  • 如果是这样,它将被捕获组捕获.
  • 如果没有,它就不会.
  • 在任何一种情况下,正则表达式引擎然后前进一个字符并重复该过程直到字符串结束.
  • 由于前瞻断言不消耗任何字符,因此将找到所有重叠的匹配.