Bin*_*ngh 12 python proxy tor scrapy
我正在使用Python和Scrapy框架开发一个Web爬行项目.它从电子商务购物网站抓取approax 10k网页.整个项目工作正常但在将代码从测试服务器移动到生产服务器之前我想选择一个更好的代理ip提供商服务,这样我就不用担心我的IP阻止或拒绝访问我的蜘蛛网站.
到目前为止,我在Scrapy中使用中间件从这样的各种网站的免费代理ip列表中手动旋转ip
现在我对我应该选择的选项感到困惑
使用TOR
使用VPN服务,如http://www.hotspotshield.com/
任何选项优于上述三项
以下是我目前使用的选项(根据我的需要):
后一种解决方案是目前最适合我的解决方案,每天可以提供大约20-30GB的流量而没有任何问题.
Crawlera专为Web爬行项目而构建.例如,它实现了智能算法以避免被禁止,并且它用于抓取非常大和高调的网站.
免责声明:我为母公司Scrapinghub工作,他也是Scrapy的核心开发人员.
| 归档时间: |
|
| 查看次数: |
10990 次 |
| 最近记录: |