我应该在C++中使用什么XML解析器？

Question

我应该在C++中使用什么XML解析器？

Nic*_*las 331 c++ c++-faq xml-parsing

我有需要解析的XML文档和/或我需要构建XML文档并将它们写入文本(文件或内存).由于C++标准库没有此库,我应该使用什么？

注意:这是一个明确的,C++ - FAQ风格的问题.所以,是的,它与其他人重复.我不是简单地适应其他问题,因为他们倾向于要求更具体的东西.这个问题更通用.

Answer 1

Nic*_*las 653

就像标准库容器一样,您应该使用哪个库取决于您的需求.这是一个方便的流程图:

在此输入图像描述

所以第一个问题是:你需要什么？

我需要完整的XML合规性

好的,所以你需要处理XML.不是玩具XML,真正的 XML.您需要能够读取和写入所有 XML规范,而不仅仅是低位,易于解析的位.您需要命名空间,DocTypes,实体替换,工作.W3C XML规范的全部内容.

接下来的问题是:您的API是否需要符合DOM或SAX？

我需要精确的DOM和/或SAX一致性

好的,所以你真的需要API是DOM和/或SAX.它不仅可以是SAX风格的推送解析器,也不能是DOM风格的保留解析器.它必须是实际的DOM或实际的SAX,在C++允许的范围内.

你已经选择:

的Xerces

那是你的选择.它几乎是唯一一个完全(或接近C++允许)DOM和SAX一致性的C++ XML解析器/编写器.它还具有XInclude支持,XML Schema支持以及许多其他功能.

它没有真正的依赖.它使用Apache许可证.

我不关心DOM和/或SAX一致性

你已经选择:

libxml2的

LibXML2提供了一个C风格的界面(如果真的困扰你,请使用Xerces),尽管界面至少有点基于对象并且很容易包装.它提供了很多功能,比如XInclude支持(带回调以便你可以告诉它从哪里获取文件),XPath 1.0识别器,RelaxNG和Schematron支持(尽管错误信息还有很多不足之处),以及等等.

它确实依赖于iconv,但可以在没有依赖性的情况下进行配置.虽然这确实意味着你可以解析一组更有限的可能的文本编码.

它使用MIT许可证.

我不需要完全符合XML

好的,所以完整的XML合规性对您来说无关紧要.您的XML文档完全在您的控制之下,或者保证使用XML的"基本子集":没有名称空间,实体等.

那对你来说有什么关系？接下来的问题是:XML工作中最重要的是什么？

最大XML解析性能

您的应用程序需要采用XML并将其转换为C++数据结构,因为这种转换可能会发生.

你已经选择:

RapidXML

这个XML解析器正如它所说的那样:快速的XML.它甚至不涉及将文件拉入内存; 怎么回事取决于你.它处理的是将其解析为一系列可以访问的C++数据结构.它的执行速度与逐字节扫描文件的速度一样快.

当然,没有免费午餐这样的东西.与大多数不关心XML规范的XML解析器一样,Rapid XML不会触及名称空间,DocType,实体(字符实体和6个基本XML实例除外),等等.所以基本上是节点,元素,属性等.

此外,它是一个DOM风格的解析器.因此,它确实要求您阅读所有文本.但是,它不做的是复制任何文本(通常).RapidXML获得大部分速度的方法是指的字符串原地.这需要您进行更多内存管理(当RapidXML正在查看时,您必须保持该字符串处于活动状态).

RapidXML的DOM很简单.您可以获取事物的字符串值.您可以按名称搜索属性.就是这样.没有便利功能可以将属性转换为其他值(数字,日期等).你只是得到字符串.

RapidXML的另一个缺点是编写 XML 很痛苦.它要求您为字符串名称进行大量显式内存分配以构建其DOM.它确实提供了一种字符串缓冲区,但是仍需要大量明确的工作.它肯定是功能性的,但使用起来很痛苦.

它使用MIT许可证.它是一个只有头的库,没有依赖项.

有一个RapidXML"GitHub补丁",它允许它也可以使用命名空间.

我关心性能但不是很多

是的,性能对您很重要.但也许你需要一些不那么简单的东西.也许某些东西可以处理更多的Unicode,或者不需要那么多用户控制的内存管理.性能仍然很重要,但你想要的东西不那么直接.

你已经选择:

PugiXML

从历史上看,这是RapidXML的灵感来源.但这两个项目有所不同,Pugi提供了更多功能,而RapidXML则完全专注于速度.

PugiXML提供Unicode转换支持,因此如果您有一些UTF-16文档并希望将它们读作UTF-8,Pugi将提供.它甚至还有一个XPath 1.0实现,如果你需要那种东西的话.

但Pugi仍然很快.与RapidXML一样,它没有依赖关系,并在MIT许可下分发.

阅读巨大的文件

您需要阅读以千兆字节为单位的文档.也许你是从stdin那里得到它们的,还有其他一些过程.或者你是从大量文件中读取它们.管他呢.关键是,您需要的是不必一次将整个文件读入内存以便处理它.

你已经选择:

libxml2的

Xerces的SAX风格的API将以这种方式工作,但LibXML2在这里是因为它更容易使用.SAX风格的API是一个push-API:它开始解析一个流,然后触发你必须捕获的事件.您被迫管理上下文,状态等.读取SAX风格API的代码比人们希望的更为分散.

LibXML2的xmlReader对象是一个pull-API.您要求转到下一个XML节点或元素; 你没有被告知.这允许您根据需要存储上下文,以便在代码中比一堆回调更具可读性的方式处理不同的实体.

备择方案

外籍人士

Expat是一个着名的C++解析器,它使用pull-parser API.它是由詹姆斯克拉克写的.

它的当前状态是活动的.最新版本是2.2.5,上个月发布(2017-10-31).

LlamaXML

它是StAX风格的API的实现.它是一个拉解析器,类似于LibXML2的xmlReader解析器.

但它自2005年以来一直没有更新.再次,Caveat Emptor.

XPath支持

XPath是一个用于查询XML树中元素的系统.使用标准化语法,通过公共属性有效地命名元素或元素集合是一种方便的方法.许多XML库都提供XPath支持.

这里有三种选择:

LibXML2:它提供完整的XPath 1.0支持.同样,它是一个C API,所以如果这困扰你,还有其他选择.
PugiXML:它还支持XPath 1.0.如上所述,它更像是一个C++ API而不是LibXML2,所以你可能会更熟悉它.
TinyXML:它没有XPath支持,但有TinyXPath库提供它.TinyXML正在进行2.0版本的转换,这会显着改变API,因此TinyXPath可能无法使用新的API.与TinyXML本身一样,TinyXPath是在zLib许可下发布的.

刚刚完成工作

所以,你不关心XML的正确性.性能对您来说不是问题.流媒体无关紧要.所有你想要的是什么是得到XML到内存中,并允许你再坚持它放回盘.什么,你关心的是API.

您希望XML解析器小巧,易于安装,使用起来很简单,并且足够小以至于与最终可执行文件的大小无关.

你已经选择:

TinyXML的

我将TinyXML放在这个插槽中,因为它就像XML解析器一样简单易用.是的,它很慢,但它很简单明了.它具有许多用于转换属性等的便利功能.

在TinyXML中编写XML是没有问题的.你只需要new放置一些物体,将它们连接在一起,将文件发送到一个std::ostream,每个人都很开心.

还有一些围绕TinyXML构建的生态系统,具有更多迭代器友好的API,甚至还有一个基于XPath 1.0的实现.

TinyXML使用zLib许可证,该许可证或多或少是具有不同名称的MIT许可证.

@Joel:很多时候,当有人用好长篇文章回答他们自己的问题时,这是因为他们遵循[杰夫的建议]的精神(http://blog.stackoverflow.com/2011/07/its-ok-回答你自己的问题/) - 特别是因为看起来像马马虎虎的问题通常可以在一个好的答案发布之前关闭,如果这个人正在那里写下答案那么.在他提出问题之前花了一些时间准备回应:) Nicol正在为我们提供_all_,以及将来关闭 - >重复问题的优秀候选人. (27认同)
@Joel:恐怕我做不到.它只是我在Notepad ++中复制的临时文档.我从来没有保存过,所以我无法将它链接到它;) (27认同)
这看起来有点像复制粘贴.你能链接源文件吗？ (6认同)
可能值得一提的是更新版本的TinyXML:*TinyXML-2使用与TinyXML-1类似的API和相同的丰富测试用例.但是完全重写了解析器的实现,使其更适合在游戏中使用.它使用更少的内存,速度更快,并且使用的内存分配很少.* (5认同)
我喜欢这个问题和答案,但发现它太偏向Unix了.没有提到MSXML和XmlLite？如果多表格可移植性是您排除这些内容的原因,那么问题和答案中应该清楚地提到这一点.(否则有些人可能最终会选择例如Libxml2用于仅限Windows的项目,这可能会让人头疼,这很容易被避免.) (5认同)
@Nicol:我很想看到DOM与SAX风格的好处. (2认同)
@NicolBolas正如OpenLearner所提到的那样[TinyXML-2](http://www.grinninglizard.com/tinyxml2docs/index.html)(自2011年12月起开始实施)(https://github.com/leethomason)/tinyxml2 /提交/ e13c3e653d3887f0a736d5da36bc367cac69755a)).是否有可能将其作为答案的一部分包括在内？我不确定它的排名,但这就是我带到这里的原因. (2认同)

Answer 2

小智 17

还有另一种处理XML的方法,您可能需要考虑这种方法,称为XML数据绑定.特别是如果您已经有XML词汇表的正式规范,例如,在XML Schema中.

XML数据绑定允许您在不实际进行任何XML解析或序列化的情况下使用XML.数据绑定编译器自动生成所有低级代码,并将解析后的数据显示为与应用程序域对应的C++类.然后,您可以通过调用函数,使用C++类型(int,double等)来处理这些数据,而不是比较字符串和解析文本(这是您使用低级XML访问API(如DOM或SAX)执行的操作).

例如,请参阅我编写的开源XML数据绑定实现, CodeSynthesis XSD,以及更轻量级的无依赖版本CodeSynthesis XSD/e.

我不介意这个帖子,但SO政策规定,如果你建议你写的东西,你应该提到你写的,为了充分披露. (13认同)

归档时间：	13 年，10 月前
查看次数：	157701 次
最近记录：	6 年，1 月前