哪种HTML DOM解析器在Android上运行得最好？

Question

哪种HTML DOM解析器在Android上运行得最好？

Rob*_*ert 7 java parsing android dom screen-scraping

我需要在我的Android应用程序中处理一些HTML页面,我更愿意使用XPath来提取相关信息.对于常规J2SE,有很多可能的实现方法可以将常规HTML解析为org.w3c.dom.Document:

(列表可能不完整 - 它已从/sf/ask/140692821/中提取)

但是,估计这些库在Android上的运行情况(库大小,CPU和内存消耗)是否非常复杂并且非常复杂.

根据您的经验 - 您选择的Android库是什么？

Answer 1

Rob*_*ert 2

好吧，看来没有人能回答这个问题——那我得自己检查一下了。

整洁

我下载了最新的 jTidy 源代码，编译它们并将创建的 jar 文件作为库添加到我的 Android 应用程序中。在我的应用程序（模拟器和真实手机）中使用 jTidy 没有任何问题。在运行时，jTidy 也运行得很好 - 但似乎它不太适合有限的 Android 环境 - 它运行速度非常慢。查看 Logcat 输出，即使解析大约 10kb 的 html 文件也会导致垃圾收集器工作繁重。

HTML清理器

根据我的经验，HTMLCleaner 在 Android 上也能很好地工作；库大小相对较小（v2.2 为 106KB）。然而，它创建的解析 DOM 并不符合预期 - HTMLCleaner 会将其他<span>元素插入到 DOM 中。如果您想将其显示为 HTML 文件，这可能没问题，但对于我的用例 - 通过 XPath 表达式提取信息 - 这是不行的！

标签汤

未测试

耶利哥

未测试

NekoHTML

未测试

汤

未测试

归档时间：	14 年，3 月前
查看次数：	2400 次
最近记录：	12 年，1 月前