什么是良好的爬行速度?

Nil*_*ria 4 python web-crawler scrapy

我正在抓取网页来创建搜索引擎,并且能够使用Scrapy在1小时内抓取接近9300页的内容.我想知道我还能提高多少以及什么价值被视为"良好"的爬行速度.

eLR*_*uLL 6

简短回答:没有真正推荐的创建搜索引擎的速度.

答案很长:

爬行速度,一般,并没有真正确定你的爬虫是好还是坏,或者即使它会工作作为饲料您的搜索引擎的计划.

在多个站点上搜索大量页面时,您也无法谈论爬行速度.抓取速度应该仅针对每个站点确定,这意味着抓取工具的配置方式应该可以更改它在任何特定时间点击网站的频率,您可以看到Google也提供此功能.

如果我们谈论你提到的当前费率(9300 /小时),这意味着你每秒收集大约2.5页,我认为它并不坏,但如前所述,它无助于确定你的最终目标(创建一个搜索引擎).

此外,如果您真的决定使用Scrapy创建一个广泛的爬虫来创建搜索引擎,那么您永远不会只使用Scrapy发送一个进程.您需要设置数千(甚至更多)蜘蛛运行以检查以获取所需的更多信息.此外,您还必须设置不同的服务,以帮助您维护这些蜘蛛以及它们在进程之间的行为方式.对于初学者,我建议检查FronteraScrapyd.


小智 -1

我不是专家,但我想说你的速度相当慢。我刚刚去谷歌,输入“帽子”这个词,按下回车键,然后:大约 650,000,000 个结果(0.63 秒)。这将是很难与之竞争的。我想说还有很大的改进空间。