Python Scrapy - IP网络掩蔽

Ana*_*r R 1 python scrapy web-scraping

我试图刮掉example.com,但在抓了100页后,该网站被封锁了.

我该如何纠正?

AWS是否有助于避免阻止?

Guy*_*ely 5

请参阅scrapy faq页面上的说明:

避免被禁止一些网站实施某些措施,以防止机器人抓取它们,具有不同程度的复杂性.绕过这些措施可能既困难又棘手,有时可能需要特殊的基础设施.如有疑问,请考虑联系商业支持.

以下是处理这类网站时要记住的一些提示:

  • 从浏览器中的众所周知的池中轮换您的用户代理(谷歌周围获取它们的列表)
  • 禁用cookie(请参阅COOKIES_ENABLED),因为某些站点可能使用cookie来发现僵尸程序行为
  • 使用下载延迟(2或更高).请参阅DOWNLOAD_DELAY设置.如果可能,请使用Google缓存来抓取网页,而不是直接点击网站
  • 使用旋转IP池.例如,免费的Tor项目或像ProxyMesh这样的付费服务
  • 使用高度分布的下载器来绕过内部禁令,因此您可以专注于解析干净的页面.这种下载器的一个例子是Crawlera

如果您仍无法阻止机器人被禁止,请考虑联系商业支持.