用Java解析HTML网页

Question

我需要解析/阅读大量HTML网页(100+)以获取特定内容(几行文本几乎相同).

我用过reg的扫描仪对象.表达式和jsoup及其html解析器.

这两种方法都很慢并且使用jsoup我收到以下错误:java.net.SocketTimeoutException:读取超时(多台计算机具有不同的连接)

有更好的吗？

编辑:

现在我已经开始工作,我认为一个更好的问题是如何加快速度？

Answer 1

您是否尝试延长JSoup的超时？我相信它默认只有3秒钟.例如参见本.