我正在使用web-crawler [使用python].
例如,情况是我在服务器1后面,我使用代理设置连接到外部世界.所以在Python中,使用代理处理程序我可以获取URL.现在的事情是,我正在构建一个爬虫,所以我不能只使用一个IP [否则我将被阻止].为了解决这个问题,我有一堆代理,我想要洗牌.
我的问题是:这是两级代理,一个连接到主服务器-1,我使用代理,然后通过代理后洗,我想使用代理.我怎样才能做到这一点?
我想使用Pycurl执行多请求.代码是:m.add_handle(句柄)requests.append((句柄,响应))
# Perform multi-request.
SELECT_TIMEOUT = 1.0
num_handles = len(requests)
while num_handles:
ret = m.select(SELECT_TIMEOUT)
if ret == -1: continue
while 1:
ret, num_handles = m.perform()
print "In while loop of multicurl"
if ret != pycurl.E_CALL_MULTI_PERFORM: break
Run Code Online (Sandbox Code Playgroud)
事实是,这个循环需要永远运行.它没有终止.谁能告诉我,它做了什么以及可能出现的问题是什么?