如何在python中将多个正则表达式组合成单个正则表达式?

Ami*_*it 14 python regex pattern-matching

我正在学习正则表达式.我不知道如何组合不同的正则表达式来制作单一的通用正则表达式.

我想为多个案例编写一个正则表达式.我知道这可以通过使用 "|"运算符以天真的方式完成.

我不喜欢这种方法.任何人都可以告诉我更好的方法吗?

Lio*_*gen 18

您需要编译所有正则表达式函数.检查此示例:

import re
re1 = r'\d+\.\d*[L][-]\d*\s[A-Z]*[/]\d*'
re2 = '\d*[/]\d*[A-Z]*\d*\s[A-Z]*\d*[A-Z]*'
re3 = '[A-Z]*\d+[/]\d+[A-Z]\d+'
re4 = '\d+[/]\d+[A-Z]*\d+\s\d+[A-z]\s[A-Z]*'

sentences = [string1, string2, string3, string4]
for sentence in sentences:
    generic_re = re.compile("(%s|%s|%s|%s)" % (re1, re2, re3, re4)).findall(sentence)
Run Code Online (Sandbox Code Playgroud)


nig*_*222 5

对于 findall任意系列的RE,您要做的就是将每个返回的匹配项列表连接起来:

re_list = [
    '\d+\.\d*[L][-]\d*\s[A-Z]*[/]\d*', # re1 in question,
    ...
    '\d+[/]\d+[A-Z]*\d+\s\d+[A-z]\s[A-Z]*', # re4 in question
]

matches = []
for r in re_list:
   matches += re.findall( r, string)
Run Code Online (Sandbox Code Playgroud)

为了提高效率,最好使用已编译RE的列表。

或者,您可以使用以下方式连接元素RE字符串

generic_re = re.compile( '|'.join( re_list) )
Run Code Online (Sandbox Code Playgroud)