我正在寻找一个Java解析器,它可以解析用SGML格式化的文档.
对于重复的监视器:我知道讨论这个主题的另外两个线程: 使用SGML Java SGML 解析Java String 到XML转换? 但两者都没有解决方案,因此也是新主题.
对于那些将XML与SGML混淆的人:请阅读:http://www.w3.org/TR/NOTE-sgml-xml-971215#null (简而言之,有足够的细微差别至少使它无法使用它香草形式)
对于那些喜欢向Google发贴海报的人:我已经做过了,而我能提出的最接近的是广受欢迎的SAXParser:http://download.oracle.com/javase/1.4.2/docs/api/javax /xml/parsers/SAXParser.html 但这当然是一个XML解析器.我正在四处寻找是否有人实施了SAX Parser的修改以适应SGML.
最后,我不能使用SX,因为我正在寻找Java解决方案.
谢谢!:)
我有几种解决这个问题的方法
第一个是您所做的——检查 sgml 文档是否足够接近 XML,以便标准 SAX 解析器能够工作。
第二个是对 HTML 解析器执行相同的操作。这里的技巧是找到一个不忽略非 HTML 元素的元素。
在搜索“sgml parser Java”时,我确实找到了一些 Java SGML 解析器,更多的是在 aceemia 中。我不知道他们的工作效果如何。
最后一步是采用标准(非 Java)SGML 解析器并将文档转换为可以用 Java 阅读的内容。
看起来您已经能够完成第一步了。
| 归档时间: |
|
| 查看次数: |
7411 次 |
| 最近记录: |