fly*_*gle 8 python url web-crawler url-encoding scrapy
我希望Scrapy不对我的请求进行URL编码.我看到scrapy.http.Request正在导入scrapy.utils.url,它导入包含变量_ALWAYS_SAFE_BYTES的w3lib.url.我只需要为_ALWAYS_SAFE_BYTES添加一组字符,但我不知道如何在我的蜘蛛类中做到这一点.
scrapy.http.Request相关行:
fp.update(canonicalize_url(request.url))
Run Code Online (Sandbox Code Playgroud)
canonicalize_url来自scrapy.utils.url,scrapy.utils.url中的相关行:
path = safe_url_string(_unquotepath(path)) or '/'
Run Code Online (Sandbox Code Playgroud)
safe_url_string()来自w3lib.url,w3lib.url中的相关行:
_ALWAYS_SAFE_BYTES = (b'ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz0123456789_.-')
Run Code Online (Sandbox Code Playgroud)
在w3lib.url.safe_url_string()中:
_safe_chars = _ALWAYS_SAFE_BYTES + b'%' + _reserved + _unreserved_marks
return moves.urllib.parse.quote(s, _safe_chars)
Run Code Online (Sandbox Code Playgroud)
我不想编码[,]所以我这样做了。
创建Request对象时 scrapy 应用一些 url 编码方法。要恢复这些,您可以使用自定义中间件并根据您的需要更改 url。
你可以使用Downloader Middleware这样的:
class MyCustomDownloaderMiddleware(object):
def process_request(self, request, spider):
request._url = request.url.replace("%5B", "[", 2)
request._url = request.url.replace("%5D", "]", 2)
Run Code Online (Sandbox Code Playgroud)
不要忘记像这样“激活”中间件settings.py:
DOWNLOADER_MIDDLEWARES = {
'so.middlewares.MyCustomDownloaderMiddleware': 900,
}
Run Code Online (Sandbox Code Playgroud)
我的项目被命名so,文件夹中有一个文件middlewares.py. 您需要根据您的环境进行调整。
致谢:弗兰克·马丁
| 归档时间: |
|
| 查看次数: |
1760 次 |
| 最近记录: |