Python中的XML处理

处理XML有三种主要方式:dom,sax和xpath.如果你能够一次性将整个xml文件加载到内存中,并且你不介意处理数据结构,并且你正在查看大部分/大部分模型,那么dom模型是很好的.如果你只关心几个标签,和/或你正在处理大文件并且可以按顺序处理它们,那么sax模型很棒.xpath模型各有一点 - 您可以选择所需数据元素的路径,但需要使用更多库.

如果你想直截了当地用Python打包,minidom就是你的答案,但它非常蹩脚,而且文档是"这里有关于dom的文档,请详细说明".真的很烦人.

就个人而言,我喜欢cElementTree,这是一个更快(基于c)的ElementTree实现,它是一个类似dom的模型.

我使用过sax系统,在许多方面它们的感觉更加"pythonic",但我通常最终会创建基于状态的系统来处理它们,这就是疯狂(和bug).

如果你喜欢研究,我会说迷你minidom,如果你想要好的代码,我会说ElementTree.

Answer 6

小智 6

我已经将ElementTree用于了几个项目并推荐它.

它是pythonic,带有Python 2.5的"盒子",包括c版cElementTree(xml.etree.cElementTree),它比纯Python版快20倍,并且非常易于使用.

lxml有一些性能优势,但它们不均匀,你应该首先检查你的用例的基准测试.

据我了解,ElementTree代码可以很容易地移植到lxml.

Answer 7

gil*_*tay 6

这取决于文档需要多么复杂.

我已经使用minidom来编写XML,但这通常只是阅读文档,进行一些简单的转换,然后将它们写回来.这很有效,直到我需要能够订购元素属性(以满足一个不能正确解析XML的古老应用程序).那时我自己放弃并写了XML.

如果您只处理简单文档,那么自己动手可以比学习框架更快更简单.如果你可以想象手工编写XML,那么你也可以手工编写它(只记得正确地转义特殊字符,并使用str.encode(codec, errors="xmlcharrefreplace")).除了这些snafus之外,XML足够常规,您不需要特殊的库来编写它.如果文档太复杂而无法手工编写,那么您应该查看已经提到的框架之一.在任何时候你都不需要编写一般的XML编写器.

Answer 8

Jab*_*bba 5

您还可以尝试解开以解析简单的XML文档.

Answer 9

Jan*_*sky 5

对于在 Python 中认真使用 XML 的工作，请使用 lxml

Python 附带 ElementTree 内置库，但 lxml 在速度和功能方面扩展了它（模式验证、sax 解析、XPath、各种迭代器和许多其他功能）。

你必须安装它，但在很多地方，它已经被假定为标准设备的一部分（例如，Google AppEngine 不允许基于 C 的 Python 包，但 lxml、pyyaml 和其他一些例外）。

使用 E-factory 构建 XML 文档（来自 lxml）

您的问题是关于构建 XML 文档。

lxml 有很多方法，我花了一段时间才找到一个，看起来很容易使用，也很容易阅读。

来自lxml 文档的有关使用 E-factory 的示例代码（稍微简化）：

E-factory 提供了一种简单而紧凑的语法来生成 XML 和 HTML：

>>> from lxml.builder import E

>>> html = page = (
...   E.html(       # create an Element called "html"
...     E.head(
...       E.title("This is a sample document")
...     ),
...     E.body(
...       E.h1("Hello!"),
...       E.p("This is a paragraph with ", E.b("bold"), " text in it!"),
...       E.p("This is another paragraph, with a", "\n      ",
...         E.a("link", href="http://www.python.org"), "."),
...       E.p("Here are some reserved characters: <spam&egg>."),
...     )
...   )
... )

>>> print(etree.tostring(page, pretty_print=True))
<html>
  <head>
    <title>This is a sample document</title>
  </head>
  <body>
    <h1>Hello!</h1>
    <p>This is a paragraph with <b>bold</b> text in it!</p>
    <p>This is another paragraph, with a
      <a href="http://www.python.org">link</a>.</p>
    <p>Here are some reserved characters: &lt;spam&amp;egg&gt;.</p>
  </body>
</html>

Run Code Online (Sandbox Code Playgroud)

我很欣赏 E-factory 的以下几点

代码读起来几乎与生成的 XML 文档一样

可读性很重要。

允许创建任何 XML 内容

支持以下内容：

命名空间的使用
一个元素内的起始和结束文本节点
函数格式化属性内容（请参阅完整 lxml 示例中的 func CLASS ）

允许使用列表构建非常可读的结构

例如：

from lxml import etree
from lxml.builder import E
lst = ["alfa", "beta", "gama"]
xml = E.root(*[E.record(itm) for itm in lst])
etree.tostring(xml, pretty_print=True)

Run Code Online (Sandbox Code Playgroud)

导致：

<root>
  <record>alfa</record>
  <record>beta</record>
  <record>gama</record>
</root>

Run Code Online (Sandbox Code Playgroud)

结论

我强烈建议您阅读 lxml 教程 - 它写得非常好，并且会给您更多使用这个强大的库的理由。

lxml 的唯一缺点是它必须被编译。请参阅SO 答案，了解如何在几分之一秒内从 Wheel 格式包安装 lxml 的更多提示。

归档时间：	17 年，7 月前
查看次数：	7892 次
最近记录：	6 年，10 月前