Joe*_*Joe 5 python proxy beautifulsoup web-crawler
这些是Python爬虫中的定义:
from __future__ import with_statement
from eventlet.green import urllib2
import eventlet
import re
import urlparse
from bs4 import BeautifulSoup, SoupStrainer
import sqlite3
import datetime
Run Code Online (Sandbox Code Playgroud)
如何将旋转代理(每个打开线程一个代理)添加到在 BeautifulSoup 上工作的递归爬虫?
如果我使用 Mechanise 的浏览器,我知道如何添加代理:
br = Browser()
br.set_proxies({'http':'http://username:password@proxy:port',
'https':'https://username:password@proxy:port'})
Run Code Online (Sandbox Code Playgroud)
但我想具体知道 BeautifulSoup 需要什么样的解决方案。
非常感谢您的帮助!
看一下 BeautifulSoup 使用 HTTP 代理的示例
http://monzool.net/blog/2007/10/15/html-parsing-with-beautiful-soup/
| 归档时间: |
|
| 查看次数: |
20524 次 |
| 最近记录: |