如何让crawler4j更快地从页面下载所有链接？

Question

如何让crawler4j更快地从页面下载所有链接？

我所做的是:
- 抓取页面
- 获取页面的所有链接,将它们放入列表中
- 启动一个新的爬虫,访问列表的每个链接
- 下载它们

必须有一个更快的方式,我可以在访问页面时直接下载链接？谢谢!

Answer 1

crawler4j会自动为您执行此过程.您首先添加一个或多个种子页面.这些是首次获取和处理的页面.然后,crawler4j会提取这些页面中的所有链接,并将它们传递给您的shouldVisit函数.如果你真的想要抓取所有这些函数,那么这个函数应该只返回所有函数的true.如果您只想对特定域中的页面进行爬网,则可以检查URL并根据该值返回true或false.

那些您的shouldVisit返回true的URL然后由爬虫程序线程提取,并对它们执行相同的过程.

这里的示例代码是一个很好的启动示例.

归档时间：	14 年，4 月前
查看次数：	6500 次
最近记录：	12 年，2 月前