小编oyr*_*yra的帖子

Python:替换重音的有效方法(é到e),删除[^ a-zA-Z\d\s]和lower()

使用Python 3.3.我想做以下事情:

  • 用基本字符(例如ô到o)替换特殊的字母字符,例如e acute(é)和o circumflex(ô)
  • 删除除字母数字以外的所有字符和字母数字字符之间的空格
  • 转换为小写

这是我到目前为止:

mystring_modified = mystring.replace('\u00E9', 'e').replace('\u00F4', 'o').lower()
alphnumspace = re.compile(r"[^a-zA-Z\d\s]")
mystring_modified = alphnumspace.sub('', mystring_modified)
Run Code Online (Sandbox Code Playgroud)

我怎样才能改善这个?效率是一个大问题,特别是因为我目前正在循环中执行操作:

# Pseudocode
for mystring in myfile:
    mystring_modified = # operations described above
    mylist.append(mystring_modified)
Run Code Online (Sandbox Code Playgroud)

有问题的文件大约每个200,000个字符.

python regex

14
推荐指数
2
解决办法
3万
查看次数

标签 统计

python ×1

regex ×1