用于网络抓取的旋转代理

Jac*_*cob 10 python proxy screen-scraping squid web-crawler

我有一个python web爬虫,我想在许多不同的代理服务器之间分发下载请求,可能运行squid(虽然我对替代品持开放态度).例如,它可以以循环方式工作,其中request1转到proxy1,request2转发到proxy2,最后循环回来.知道如何设置吗?

为了使其更难,我还希望能够动态更改可用代理列表,减少一些代理,并添加其他代理.

如果重要,则动态分配IP地址.

谢谢 :)

sw.*_*sw. 13

我已经使用HAProxy + DeleGate + Multiple Tor实例设置了旋转代理.使用Tor,您无法很好地控制带宽和延迟,但它对于网络抓取非常有用.我刚刚发表了一篇关于这个主题的文章:运行你自己的匿名旋转代理

  • 这很酷.不幸的是,越来越多的网站似乎禁止与Tor出口节点相关联的IP地址. (3认同)

Ber*_*rnd 6

使您的抓取工具具有代理列表,并且每个HTTP请求都允许它以循环方式使用列表中的下一个代理.但是,这将阻止您使用HTTP/1.1持久连接.修改代理列表最终将导致使用新代理或不使用代理.

或者并行打开多个连接,每个代理一个,并将爬网请求分发给每个打开的连接.动态可以通过让connetor向请求调度程序注册自己来实现.