如何在 Python 中使用正则表达式排除特定字符串？

>>> import re
>>> corpus = """
... 45 meters?
... 45?
... 45 ?
... 45 meters you?
... 45 you  ?
... 45, and you?
... """
>>> pattern = re.compile(r"\d+[^?]*you|(\d+[^?]*\?)")
>>> re.findall(pattern, corpus)
['45 meters?', '45?', '45 ?', '', '', '']

Run Code Online (Sandbox Code Playgroud)

不利的一面是，当排除开始时，您会得到空匹配项，但这些匹配项很容易被过滤掉：

>>> filter(None, re.findall(pattern, corpus))
['45 meters?', '45?', '45 ?']

Run Code Online (Sandbox Code Playgroud)

这个怎么运作：

诀窍是我们只关注捕获的组......所以交替的左侧 - \d+[^?]*you（或“数字后跟非？-字符后跟'你'”）匹配你不想要的，并且然后我们就忘了它。仅当左侧不匹配时，右侧 - (\d+[^?]*\?)（或“数字后跟非？-字符后跟 '?'） - 匹配，并且捕获那个。

+1。我正在用同样的方法写答案，但你更快。 (3认同)

归档时间：	11 年，11 月前
查看次数：	15415 次
最近记录：	11 年，11 月前