Python正则表达式,匹配最后一个单词

Question

Python正则表达式,匹配最后一个单词

我有以下问题.我希望找到一个通常看起来像这样的字符串中的所有单词 HelloWorldToYou 注意,每个单词大写为开头,后跟下一个单词,依此类推.我想从中创建一个单词列表.所以最终的预期输出是一个看起来像的列表

['Hello','World','To','You']

Run Code Online (Sandbox Code Playgroud)

在Python中,我使用了以下内容

mystr = 'HelloWorldToYou'
pat = re.compile(r'([A-Z](.*?))(?=[A-Z]+)')
[x[0] for x in pat.findall(mystr)]
['Hello', 'World', 'To']

Run Code Online (Sandbox Code Playgroud)

但是,我无法捕捉到"你"的最后一个字.有办法解决这个问题吗？提前致谢

Answer 1

Wik*_*żew 7

使用交替$:

import re
mystr = 'HelloWorldToYou'
pat = re.compile(r'([A-Z][a-z]*)')
# or your version with `.*?`: pat = re.compile(r'([A-Z].*?)(?=[A-Z]+|$)')
print pat.findall(mystr)

Run Code Online (Sandbox Code Playgroud)

请参阅IDEONE演示

输出:

['Hello', 'World', 'To', 'You']

Run Code Online (Sandbox Code Playgroud)

正则表达式解释:

([A-Z][a-z]*) - 匹配的捕获组
- [A-Z] 一封大写的英文字母
- [a-z]*- 可选的小写英文字母数
  - 或 -
- .*? - 懒惰地匹配换行符以外的任何字符

如果我们使用[a-z]*,可以省略前瞻,但如果你使用.*?,那么使用它:

(?=[A-Z]+|$)- 最多一个大写英文字母(我们实际上可以删除+),或字符串($)的结尾.

如果您不使用预见版本,您甚至可以删除捕获组以获得更好的性能并使用finditer:

import re
mystr = 'HelloWorldToYou'
pat = re.compile(r'[A-Z][a-z]*')
print [x.group() for x in pat.finditer(mystr)]

Run Code Online (Sandbox Code Playgroud)

归档时间：	10 年，7 月前
查看次数：	278 次
最近记录：	10 年，7 月前