小编Joe*_*Joe的帖子

如何为BeautifulSoup爬虫添加代理

这些是Python爬虫中的定义:

from __future__ import with_statement

from eventlet.green import urllib2
import eventlet
import re
import urlparse
from bs4 import BeautifulSoup, SoupStrainer
import sqlite3
import datetime
Run Code Online (Sandbox Code Playgroud)

如何将旋转代理(每个打开线程一个代理)添加到在 BeautifulSoup 上工作的递归爬虫?

如果我使用 Mechanise 的浏览器,我知道如何添加代理:

br = Browser()
br.set_proxies({'http':'http://username:password@proxy:port',
'https':'https://username:password@proxy:port'})
Run Code Online (Sandbox Code Playgroud)

但我想具体知道 BeautifulSoup 需要什么样的解决方案。

非常感谢您的帮助!

python proxy beautifulsoup web-crawler

5
推荐指数
1
解决办法
2万
查看次数

标签 统计

beautifulsoup ×1

proxy ×1

python ×1

web-crawler ×1