par*_*rik 4 amazon web-crawler scrapy web-scraping scrapy-spider
我试图通过Scrapy刮掉亚马逊.但我有这个错误
DEBUG: Retrying <GET http://www.amazon.fr/Amuses-bouche-Peuvent-b%C3%A9n%C3%A9ficier-dAmazon-Premium-Epicerie/s?ie=UTF8&page=1&rh=n%3A6356734031%2Cp_76%3A437878031>
(failed 1 times): 503 Service Unavailable
Run Code Online (Sandbox Code Playgroud)
我认为这是因为=亚马逊非常擅长检测机器人.我该如何防止这种情况?
我time.sleep(6)在每次请求之前使用 过.
我不想使用他们的API.
我试过用tor和polipo
您必须非常小心亚马逊并遵循亚马逊使用条款和与网络抓取相关的政策.
亚马逊非常擅长禁止机器人的IP.你不得不调整DOWNLOAD_DELAY和CONCURRENT_REQUESTS不经常访问网站,成为一个很好的网络抓民.而且,您需要轮换IP地址(例如,您可以查看crawlera)和用户代理.
| 归档时间: |
|
| 查看次数: |
6765 次 |
| 最近记录: |