我对正则表达式还是比较新的.我正在尝试找到与特定模式匹配的最短文本字符串,但如果最短模式是较大匹配的子字符串,则会遇到问题.例如:
import re
string = "A|B|A|B|C|D|E|F|G"
my_pattern = 'a.*?b.*?c'
my_regex = re.compile(my_pattern, re.DOTALL|re.IGNORECASE)
matches = my_regex.findall(string)
for match in matches:
print match
Run Code Online (Sandbox Code Playgroud)
打印:
A|B|A|B|C
Run Code Online (Sandbox Code Playgroud)
但是我希望它能回归:
A|B|C
Run Code Online (Sandbox Code Playgroud)
有没有办法做到这一点,而不必遍历每个匹配,看它是否包含匹配的子字符串?
Tim*_*ker 13
与此处的大多数其他答案相反,这可以使用带有捕获组的正向前瞻断言在单个正则表达式中完成:
>>> my_pattern = '(?=(a.*?b.*?c))'
>>> my_regex = re.compile(my_pattern, re.DOTALL|re.IGNORECASE)
>>> matches = my_regex.findall(string)
>>> print min(matches, key=len)
A|B|C
Run Code Online (Sandbox Code Playgroud)
findall()
将返回所有可能的匹配,因此您需要min()
获得最短的匹配.
这是如何工作的: