正则表达式和一系列模式？

Question

正则表达式和一系列模式？

有没有办法匹配模式(e\d\d)几次,将每个模式捕获到一个组？例如,给定字符串..

blah.s01e24e25

Run Code Online (Sandbox Code Playgroud)

..我希望得到四组:

1 -> blah
2 -> 01
3 -> 24
4 -> 25

Run Code Online (Sandbox Code Playgroud)

显而易见的正则表达式是(在Python正则表达式中:

import re
re.match("(\w+).s(\d+)e(\d+)e(\d+)", "blah.s01e24e25").groups()

Run Code Online (Sandbox Code Playgroud)

..但我也想要匹配以下任何一个:

blah.s01e24
blah.s01e24e25e26

Run Code Online (Sandbox Code Playgroud)

您似乎无法做到(e\d\d)+,或者说您可以,但它只捕获最后一次出现:

>>> re.match("(\w+).s(\d+)(e\d\d){2}", "blah.s01e24e25e26").groups()
('blah', '01', 'e25')
>>> re.match("(\w+).s(\d+)(e\d\d){3}", "blah.s01e24e25e26").groups()
('blah', '01', 'e26')

Run Code Online (Sandbox Code Playgroud)

我想在单个正则表达式中执行此操作,因为我有多个模式来匹配电视剧集文件名,并且不希望复制每个表达式来处理多个剧集:

\w+\.s(\d+)\.e(\d+) # matches blah.s01e01
\w+\.s(\d+)\.e(\d+)\.e(\d+) # matches blah.s01e01e02
\w+\.s(\d+)\.e(\d+)\.e(\d+)\.e(\d+) # matches blah.s01e01e02e03

\w - \d+x\d+ # matches blah - 01x01
\w - \d+x\d+\d+ # matches blah - 01x01x02
\w - \d+x\d+\d+\d+ # matches blah - 01x01x02x03

Run Code Online (Sandbox Code Playgroud)

..等等许多其他模式.

另一件让事情变得复杂的事情 - 我希望将这些正则表达式存储在配置文件中,因此不需要使用多个正则表达式和函数调用的解决方案 - 但如果这证明不可能,我将只允许用户添加简单的正则表达式

基本上,有没有办法使用正则表达式捕获重复模式？

Answer 1

Ric*_*dle 5

分两步完成,一个找到所有数字,然后一个拆分它们:

import re

def get_pieces(s):
    # Error checking omitted!
    whole_match = re.search(r'\w+\.(s\d+(?:e\d+)+)', s)
    return re.findall(r'\d+', whole_match.group(1))

print get_pieces(r"blah.s01e01")
print get_pieces(r"blah.s01e01e02")
print get_pieces(r"blah.s01e01e02e03")

# prints:
# ['01', '01']
# ['01', '01', '02']
# ['01', '01', '02', '03']

Run Code Online (Sandbox Code Playgroud)

归档时间：	16 年，8 月前
查看次数：	2180 次
最近记录：	16 年，8 月前