我使用scrapy下载图像但出现超时错误:
Retrying <GET http://www/***.jpg> (failed 1 times): User timeout caused connection failure
Run Code Online (Sandbox Code Playgroud)
但是,我可以立即用wget下载图像.DOWNLOAD_TIMEOUT(scrapy参数)设置为默认值180秒,因此这不应该是错误的根本原因.我尝试过使用代理和非代理的scrapy,两者都给我上面的错误.
Sha*_*ans 10
如果要抓取多个图像(特别是来自多个域),则下载将同时发生,与从命令行下载单个图像相比,每次下载可能需要更长时间.尝试减少CONCURRENT_REQUESTS设置并增加DOWNLOAD_TIMEOUT.
请检查scrapy fetch URL您是否可以检索图像以排除Scrapy问题.
最后,检查请求标头(用户代理,cookie,引用等)的差异,这里的一些差异可以解释服务器响应的差异.如果你能找到一个有所作为的标题,那么在Scrapy中很容易改变.