Python + Expat:错误 实体

Question

Python + Expat:错误 实体

cla*_*cke 5 python xml parsing elementtree expat-parser

我编写了一个小函数,它使用ElementTree和xpath来提取xml文件中某些元素的文本内容:

#!/usr/bin/env python2.5

import doctest
from xml.etree import ElementTree
from StringIO import StringIO

def parse_xml_etree(sin, xpath):
  """
Takes as input a stream containing XML and an XPath expression.
Applies the XPath expression to the XML and returns a generator
yielding the text contents of each element returned.

>>> parse_xml_etree(
...   StringIO('<test><elem1>one</elem1><elem2>two</elem2></test>'),
...   '//elem1').next()
'one'
>>> parse_xml_etree(
...   StringIO('<test><elem1>one</elem1><elem2>two</elem2></test>'),
...   '//elem2').next()
'two'
>>> parse_xml_etree(
...   StringIO('<test><null>&#0;</null><elem3>three</elem3></test>'),
...   '//elem2').next()
'three'
"""

  tree = ElementTree.parse(sin)
  for element in tree.findall(xpath):
    yield element.text  

if __name__ == '__main__':
  doctest.testmod(verbose=True)

Run Code Online (Sandbox Code Playgroud)

第三次测试失败,但有以下异常:

ExpatError:对无效字符编号的引用:第1行,第13列

该实体是非法的XML吗？无论是否,我要解析的文件都包含它,我需要一些方法来解析它们.对于另一个解析器而不是Expat的任何建议,或Expat的设置,这将允许我这样做？

更新:我刚刚发现了BeautifulSoup,这是一个标记汤解析器,如下面的答案评论中所述,为了好玩,我回到了这个问题,并尝试在ElementTree前使用它作为XML清理器,但它尽职尽责地将其转换为一个只是无效的空字节.:-)

cleaned_s = StringIO(
  BeautifulStoneSoup('<test><null>&#0;</null><elem3>three</elem3></test>',
                     convertEntities=BeautifulStoneSoup.XML_ENTITIES
  ).renderContents()
)
tree = ElementTree.parse(cleaned_s)

Run Code Online (Sandbox Code Playgroud)

......收益率

xml.parsers.expat.ExpatError: not well-formed (invalid token): line 1, column 12

Run Code Online (Sandbox Code Playgroud)

在我的特殊情况下,我并不真正需要XPath解析,我可以使用BeautifulSoup本身和它非常简单的节点地址样式parsed_tree.test.elem1.contents[0].

Answer 1

McD*_*ell 6

不在XML规范定义的合法字符范围内.唉,我的Python技能非常简陋,所以我在那里帮不了多少.

归档时间：	15 年，8 月前
查看次数：	4059 次
最近记录：	13 年，9 月前

Python + Expat:错误&#0; 实体

Python + Expat:错误实体