调度程序中存在的重复过滤器与IgnoreVisitedItems中间件之间有什么区别?
Google小组主题提示调度程序中存在重复的过滤器:http://groups.google.com/group/scrapy-users/browse_thread/thread/8e218bcc5b293532
Pab*_*man 13
调度程序中的重复过滤器仅过滤掉在单个蜘蛛运行中已经看到的URL(意味着它将在后续运行中重置).IgnoreVistedItems中间件将保持运行之间的状态并避免访问过去看到的URL,但仅限于最终项目URL,以便可以重新爬网站点的其余部分(以便查找新项目).
| 归档时间: |
|
| 查看次数: |
4863 次 |
| 最近记录: |