Scrapy框架的代理IP

Question

我正在使用Python和Scrapy框架开发一个Web爬行项目.它从电子商务购物网站抓取approax 10k网页.整个项目工作正常但在将代码从测试服务器移动到生产服务器之前我想选择一个更好的代理ip提供商服务,这样我就不用担心我的IP阻止或拒绝访问我的蜘蛛网站.

到目前为止,我在Scrapy中使用中间件从这样的各种网站的免费代理ip列表中手动旋转ip

现在我对我应该选择的选项感到困惑

Answer 1

以下是我目前使用的选项(根据我的需要):

proxymesh.com - 小型项目的合理价格.从来没有与服务有任何问题,因为它与scrapy开箱即用(我不隶属于他们)
一个自构建脚本,可在亚马逊上启动多个EC2微实例.然后,我将SSH连接到机器并创建SOCKS代理连接,然后通过委托来管理这些连接,以创建可与scrapy一起使用的普通http代理.http代理可以使用像haproxy之类的东西进行负载均衡,也可以自己构建一个旋转代理的自定义中间件

后一种解决方案是目前最适合我的解决方案,每天可以提供大约20-30GB的流量而没有任何问题.

Answer 2

Crawlera专为Web爬行项目而构建.例如,它实现了智能算法以避免被禁止,并且它用于抓取非常大和高调的网站.

免责声明:我为母公司Scrapinghub工作,他也是Scrapy的核心开发人员.