I have an application where I need to parse or tokenize XML and preserve the raw text (e.g. don't parse entities, don't convert whitespace in attributes, keep attribute order, etc.) in a Java program.
今天我花了几个小时尝试使用StAX,SAX,XSLT,TagSoup等,然后才意识到他们都没有这样做.我不能花费更多的时间来解决这个问题,手动解析文本似乎非常重要.是否有任何Java库可以帮助我标记化XML?
编辑:我为什么这样做? - 我有一个大型XML文件,我想以编程方式进行少量本地化更改,需要进行审核.能够使用diff工具是非常有价值的.如果解析器/过滤器规范化XML,那么我在diff工具中看到的只是"红色墨水".如果有这样的事情,那么首先生成XML的应用程序不是我可以轻易改变以生成"规范XML"的东西.
我认为你可能必须生成自己的语法。
一些链接: