我实际抓取网站的速度有多快?

IQl*_*n70 4 web-crawler

我要抓取一个网站获取一些信息.这是大约17万多页.那么,我可以提出多少请求?我将提取直到HTML并获取一些信息.这是一个已经非常受欢迎的网站,所以我不认为如果只是在所有页面上快速巡航就会死亡......只有让我感到紧张的是我不知道自己的用户是否会阻止我的IP或其他东西如果你这样做?这是正常的吗?我应该加载5页/分钟吗?然后它将永远...我希望每24小时获得新数据.

感谢所有回复!

Rue*_*uel 5

这需要一段时间,实际上我建议你使用旋转代理,并添加多线程.10个线程会做.这样,您可以同时拥有10个请求.使用代理会很慢,并且每个请求添加至少1.5秒的超时,它会降低你的速度,但会降低被禁止的风险.