pus*_*kin 11 python unicode encoding utf-8 python-2.7
我正在编写一个Python脚本来解析word文档并写入csv文件.但是,某些文档有一些utf-8字符,我的脚本无法正确处理.
花哨的引号经常出现(u'\ u201c').是否有一种快速简单(和智能)的方式来替换那些使用中性ascii支持的引号,所以我可以写入line.encode('ascii')csv文件?
我试图找到左引号并替换它:
val = line.find(u'\u201c')
if val >= 0: line[val] = '"'
Run Code Online (Sandbox Code Playgroud)
但无济于事:
TypeError: 'unicode' object does not support item assignment
我所描述的是一个好策略吗?或者我应该设置csv以支持utf-8(虽然我不确定将要读取CSV的应用程序是否需要utf-8)?
谢谢
Mar*_*som 15
您可以使用该Unidecode程序包自动将所有Unicode字符转换为最接近的纯ASCII等效字符.
from unidecode import unidecode
line = unidecode(line)
Run Code Online (Sandbox Code Playgroud)
这将处理双引号的方向以及单引号,破折号以及您可能尚未发现的其他内容.
您不能分配给字符串,因为它们是不可变的,并且无法更改.
但是,您可以使用正则表达式库,这可能是最灵活的方法:
import re
newline = re.sub(u'\u201c','"',line)
Run Code Online (Sandbox Code Playgroud)