获取网页的内容(通过AJAX调用加载)

Question

我是一个爬行的初学者.我需要从链接中获取帖子和评论.我想自动化这个过程.我考虑过使用webcrawler和jsoup但是被告知webcrawler主要用于更深入的网站.

页面示例:Jive社区网站

对于此页面,当我查看页面的来源时,我只能看到帖子而不是评论.认为这是因为通过对服务器的AJAX调用来获取注释.

因此,当我使用jsoup时,它不会获取注释.

那么如何自动获取帖子和评论的过程呢？

Answer 1

Jsoup只是一个html解析器.不幸的是,无法解析任何javascript/ajax内容,因为jsoup无法执行这些内容.

解决方案:使用可以处理脚本的库.

以下是我知道的一些例子:

如果这样的库不支持解析或选择器,你至少可以使用它们从脚本中获取Html(然后可以通过jsoup解析).