如何使用minidom解析unicode字符串？

Question

我正在尝试用库xml.dom.minidom解析一堆xml文件,以提取一些数据并将其放入文本文件中.大多数XML都运行良好,但对于其中一些XML,在调用minidom.parsestring()时会出现以下错误:

UnicodeEncodeError:'ascii'编解码器无法编码位置5189中的字符u'\ u2019':序数不在范围内(128)

它也适用于其他一些非ascii字符.我的问题是:我有什么选择？在解析XML文件之前,我是否应该以某种方式剥离/替换所有非英文字符？

Answer 1

尝试解码它:

> print u'abcdé'.encode('utf-8')
> abcdÃ©

> print u'abcdé'.encode('utf-8').decode('utf-8')
> abcdé

Answer 2

如果您的字符串是“ str”：

xmldoc = minidom.parseString(u'{0}'.format(str).encode('utf-8'))

这对我有用。