我是一个爬行的初学者.我需要从链接中获取帖子和评论.我想自动化这个过程.我考虑过使用webcrawler和jsoup但是被告知webcrawler主要用于更深入的网站.
页面示例:Jive社区网站
对于此页面,当我查看页面的来源时,我只能看到帖子而不是评论.认为这是因为通过对服务器的AJAX调用来获取注释.
因此,当我使用jsoup时,它不会获取注释.
那么如何自动获取帖子和评论的过程呢?
oll*_*llo 10
Jsoup只是一个html解析器.不幸的是,无法解析任何javascript/ajax内容,因为jsoup无法执行这些内容.
解决方案:使用可以处理脚本的库.
以下是我知道的一些例子:
如果这样的库不支持解析或选择器,你至少可以使用它们从脚本中获取Html(然后可以通过jsoup解析).