Ore*_*ail 5 web-crawler nutch scrapy
在过去的一个月里,我一直在使用Scrapy进行我已经开始的网络爬行项目.
此项目涉及在主页中可以访问的单个域名中提取所有网页的完整文档内容.使用Scrapy写这个很容易,但它运行得太慢了.在2-3天内,我只能下载100,000页.
我已经意识到我最初认为Scrapy不适合这种类型的爬行的想法是揭示自己.
我开始把注意力集中在Nutch和Methabot上,希望能有更好的表现.我在爬网期间需要存储的唯一数据是网页的完整内容,最好是页面上的所有链接(但即使这样也可以在后处理中完成).
我正在寻找一种快速并且使用许多并行请求的爬虫.