使用Jsoup解析一个巨大的HTML流

Question

任何人都可以提供指针或建议,如何解决一个非常大的HTML流/文件.例如,我有一个大约270,000行的表,我想一次将它带入我的应用程序约20k.jsoup解析方法允许HTML的片段,但我不清楚什么是读取表示此片段的XXX字节的最有效和最干净的方法.

任何帮助最受赞赏.

Answer 1

如果它是 XHTML，并且您不需要立即将整个内容保留在内存中，更好的选择可能是使用 SAX 解析器并使用开始和结束标记事件选取您需要的数据。

另一个想法可能是 StAX 解析器。