我所做的是:
- 抓取页面
- 获取页面的所有链接,将它们放入列表中
- 启动一个新的爬虫,访问列表的每个链接
- 下载它们
必须有一个更快的方式,我可以在访问页面时直接下载链接?谢谢!
crawler4j会自动为您执行此过程.您首先添加一个或多个种子页面.这些是首次获取和处理的页面.然后,crawler4j会提取这些页面中的所有链接,并将它们传递给您的shouldVisit函数.如果你真的想要抓取所有这些函数,那么这个函数应该只返回所有函数的true.如果您只想对特定域中的页面进行爬网,则可以检查URL并根据该值返回true或false.
那些您的shouldVisit返回true的URL然后由爬虫程序线程提取,并对它们执行相同的过程.
这里的示例代码是一个很好的启动示例.
| 归档时间: |
|
| 查看次数: |
6500 次 |
| 最近记录: |