用Java解析HTML网页

sam*_*ise 4 html java parsing jsoup

我需要解析/阅读大量HTML网页(100+)以获取特定内容(几行文本几乎相同).

我用过reg的扫描仪对象.表达式和jsoup及其html解析器.

这两种方法都很慢并且使用jsoup我收到以下错误:java.net.SocketTimeoutException:读取超时(多台计算机具有不同的连接)

有更好的吗?

编辑:

现在我已经开始工作,我认为一个更好的问题是如何加快速度?

Ed *_*aub 5

您是否尝试延长JSoup的超时?我相信它默认只有3秒钟.例如参见.