小编oyr*_*yra的帖子

Python:替换重音的有效方法(é到e),删除[^ a-zA-Z\d\s]和lower()

使用Python 3.3.我想做以下事情:

用基本字符(例如ô到o)替换特殊的字母字符,例如e acute(é)和o circumflex(ô)
删除除字母数字以外的所有字符和字母数字字符之间的空格
转换为小写

这是我到目前为止:

mystring_modified = mystring.replace('\u00E9', 'e').replace('\u00F4', 'o').lower()
alphnumspace = re.compile(r"[^a-zA-Z\d\s]")
mystring_modified = alphnumspace.sub('', mystring_modified)

Run Code Online (Sandbox Code Playgroud)

我怎样才能改善这个？效率是一个大问题,特别是因为我目前正在循环中执行操作:

# Pseudocode
for mystring in myfile:
    mystring_modified = # operations described above
    mylist.append(mystring_modified)

Run Code Online (Sandbox Code Playgroud)

有问题的文件大约每个200,000个字符.

python regex

oyr*_*yra

lucky-day

14
推荐指数

2
解决办法

3万
查看次数

标签统计

python ×1

regex ×1

Python:替换重音的有效方法(é到e),删除[^ a-zA-Z\d\s]和lower()

标签 统计

小编oyr_yra的帖子

标签统计