Python re.sub():如何用'你'替换所有'你'或'你'

Question

Python re.sub():如何用'你'替换所有'你'或'你'

我正在使用python和正则表达式进行一些文本规范化.我想用'你'替换所有'你'或'你'.这是我到目前为止所做的:

import re
text = 'how are u? umberella u! u. U. U@ U# u '
print re.sub (' [u|U][s,.,?,!,W,#,@ (^a-zA-Z)]', ' you ', text)

Run Code Online (Sandbox Code Playgroud)

我得到的输出是:

how are you  you berella you  you  you  you  you  you

Run Code Online (Sandbox Code Playgroud)

正如你所看到的那样,'umberella'被改为'berella'.另外我想保留'u'之后出现的角色.例如,我想要'你!' 被改为'你!'.任何人都可以告诉我我做错了什么,写正则表达式的最佳方法是什么？

Answer 1

Mar*_*der 66

首先,为什么你的解决方案不起作用.你混淆了很多概念.主要是与其他人的角色类.在您使用的第一个字符类中,|它来自交替.在字符类中,您不需要管道.只需列出您想要的所有字符(和字符范围):

[Uu]

Run Code Online (Sandbox Code Playgroud)

或者,u如果使用不区分大小写的修饰符,则只需编写.如果在那里编写管道,则字符类实际上将匹配主题字符串中的管道.

现在在第二个字符类中,您可以使用逗号分隔字符,原因有些奇怪.除了在可匹配的角色中包含逗号外,这也没什么.s并且W可能应该是内置的角色类.然后逃脱他们!否则他们只会匹配文字s和文字W.但是之后\W已经包含了你在那里列出的所有内容,所以\W单独(没有方括号)就足够了.而最后一部分(^a-zA-Z)也不起作用,因为它只会包括^,(,)和所有字母到字符类.否定语法仅适用于整个字符类[^a-zA-Z].

你真正想要的是断言前面或后面都没有字母u.你可以使用lookarounds.优点是它们不会包含在比赛中,因此不会被删除:

r'(?<![a-zA-Z])[uU](?![a-zA-Z])'

Run Code Online (Sandbox Code Playgroud)

请注意,我使用了原始字符串.通常是正则表达式的良好实践,以避免转义序列的问题.

这些都是消极的外观,确保在你之前或之后没有字母字符u.这与断言存在非字母字符(与您所做的类似)的重要区别在于,因为后一种方法在字符串的开头或结尾不起作用.

当然,您可以you从替换字符串中删除周围的空格.

如果您不想替换u数字旁边的数字,则可以轻松地将数字包含在字符类中:

r'(?<![a-zA-Z0-9])[uU](?![a-zA-Z0-9])'

Run Code Online (Sandbox Code Playgroud)

如果由于某种原因,相邻的下划线也会取消您u的替换资格,您也可以将其包括在内.但是后来角色类与内置符合\w:

r'(?<!\w)[uU](?!\w)'

Run Code Online (Sandbox Code Playgroud)

在这种情况下,这相当于EarlGray的r'\b[uU]\b'.

如上所述,您可以使用不区分大小写的修饰符来缩短所有这些.以第一个表达式为例:

re.sub(r'(?<![a-z])u(?![a-z])', 'you', text, flags=re.I)

Run Code Online (Sandbox Code Playgroud)

要么

re.sub(r'(?<![a-z])u(?![a-z])', 'you', text, flags=re.IGNORECASE)

Run Code Online (Sandbox Code Playgroud)

取决于您的偏好.

我建议你通过我在这个答案中多次链接的教程来阅读.这些解释非常全面,应该会让你对正则表达式有一个很好的启发,你可能迟早会再遇到它.

你的答案很棒.谢谢! (2认同)
@Sam我只是想确保使用`\ b`的含义是明确的(特别是包含数字和下划线). (2认同)

Answer 2

Dmy*_*nko 13

使用一个特殊字符\b,它匹配单词开头或结尾处的空字符串:

print re.sub(r'\b[uU]\b', 'you', text)

Run Code Online (Sandbox Code Playgroud)

空格不是一个可靠的解决方案,因为还有很多其他标点符号,因此\b发明了一个抽象字符来表示单词的开头或结尾.

除了''\ b'`与''\ x08'`相同.你需要逃避(`'\\ b'`或`r'\ b'`)! (2认同)
请注意,`\ b`不是"抽象字符",而是[字边界](http://www.regular-expressions.info/wordboundaries.html)(它永远不会消耗任何字符,它只是一个位置).如果`u`被数字或下划线包围(取决于所需的行为),这也可能会失败 (2认同)

归档时间：	13 年，2 月前
查看次数：	161268 次
最近记录：	7 年，6 月前