使用Python 3.3.我想做以下事情:
这是我到目前为止:
mystring_modified = mystring.replace('\u00E9', 'e').replace('\u00F4', 'o').lower()
alphnumspace = re.compile(r"[^a-zA-Z\d\s]")
mystring_modified = alphnumspace.sub('', mystring_modified)
Run Code Online (Sandbox Code Playgroud)
我怎样才能改善这个?效率是一个大问题,特别是因为我目前正在循环中执行操作:
# Pseudocode
for mystring in myfile:
mystring_modified = # operations described above
mylist.append(mystring_modified)
Run Code Online (Sandbox Code Playgroud)
有问题的文件大约每个200,000个字符.