如何防止在刮取亚马逊时被列入黑名单

par*_*rik 4 amazon web-crawler scrapy web-scraping scrapy-spider

我试图通过Scrapy刮掉亚马逊.但我有这个错误

DEBUG: Retrying <GET http://www.amazon.fr/Amuses-bouche-Peuvent-b%C3%A9n%C3%A9ficier-dAmazon-Premium-Epicerie/s?ie=UTF8&page=1&rh=n%3A6356734031%2Cp_76%3A437878031> 
(failed 1 times): 503 Service Unavailable
Run Code Online (Sandbox Code Playgroud)

我认为这是因为=亚马逊非常擅长检测机器人.我该如何防止这种情况?

time.sleep(6)在每次请求之前使用 过.

我不想使用他们的API.

我试过用tor和polipo

ale*_*cxe 6

您必须非常小心亚马逊并遵循亚马逊使用条款和与网络抓取相关的政策.

亚马逊非常擅长禁止机器人的IP.你不得不调整DOWNLOAD_DELAYCONCURRENT_REQUESTS不经常访问网站,成为一个很好的网络抓民.而且,您需要轮换IP地址(例如,您可以查看crawlera)和用户代理.

  • 是的,对于Crawlera,我还建议在您的堆栈中添加scrapyjs/splash,因为Amazon通常具有动态页面元素. (2认同)