如何使用minidom解析unicode字符串?

dar*_*opy 12 python unicode minidom

我正在尝试用库xml.dom.minidom解析一堆xml文件,以提取一些数据并将其放入文本文件中.大多数XML都运行良好,但对于其中一些XML,在调用minidom.parsestring()时会出现以下错误:

UnicodeEncodeError:'ascii'编解码器无法编码位置5189中的字符u'\ u2019':序数不在范围内(128)

它也适用于其他一些非ascii字符.我的问题是:我有什么选择?在解析XML文件之前,我是否应该以某种方式剥离/替换所有非英文字符?

Ble*_*der 9

尝试解码它:

> print u'abcdé'.encode('utf-8')
> abcdé

> print u'abcdé'.encode('utf-8').decode('utf-8')
> abcdé
Run Code Online (Sandbox Code Playgroud)


Roe*_*oni 5

如果您的字符串是“ str”:

xmldoc = minidom.parseString(u'{0}'.format(str).encode('utf-8'))
Run Code Online (Sandbox Code Playgroud)

这对我有用。