正则表达式中的可选点

Question

正则表达式中的可选点

说我想要替换的所有比赛Mr.,并Mr用Mister.

我使用以下正则表达式:\bMr(\.)?\b匹配Mr.或只是匹配Mr.然后,我使用该re.sub()方法进行替换.

更令人不解的我的是,它正在取代Mr.用Mister..为什么这会保持点.到底？看起来它不符合Mr\.案例但只是Mr.

import re
s="a rMr. Nobody Mr. Nobody is Mr Nobody and Mra Nobody."
re.sub(r"\bMr(\.)?\b","Mister", s)

Run Code Online (Sandbox Code Playgroud)

返回:

'a rMr. Nobody Mister. Nobody is Mister Nobody and Mra Nobody.'

Run Code Online (Sandbox Code Playgroud)

我也试过以下,但也没有运气:

re.sub(r"\b(Mr\.|Mr)\b","Mister", s)

Run Code Online (Sandbox Code Playgroud)

我想要的输出是:

'a rMr. Nobody Mister Nobody is Mister Nobody and Mra Nobody.'
                     ^                              ^
                     no dot            this should be kept as it is

Run Code Online (Sandbox Code Playgroud)

Answer 1

jon*_*rpe 15

我想你要捕获'Mr'后跟一个'.' 或一个单词边界:

r"\bMr(?:\.|\b)"

Run Code Online (Sandbox Code Playgroud)

正在使用:

>>> import re
>>> re.sub(r"\bMr(?:\.|\b)", "Mister", "a rMr. Nobody Mr. Nobody is Mr Nobody and Mra Nobody.")
'a rMr. Nobody Mister Nobody is Mister Nobody and Mra Nobody.'

Run Code Online (Sandbox Code Playgroud)

@fedorqui`(\.|\b)`还可以捕获Mr之后的任何内容,因此您可以在重新编写句子后重复使用它.`？:`使它不会发生.它几乎没有对性能和可读性产生任何影响,但如果你重复一个未知的次数,然后需要捕获一个重复组后面的组,它可以帮助很大.使重复组不捕获意味着您事先知道捕获组的索引是什么,而不必先计算它. (3认同)
写`\ bMr\b \是不是更简单.？`？ (3认同)