Python Scrapy - IP网络掩蔽

Question

Python Scrapy - IP网络掩蔽

Ana*_*r R 1 python scrapy web-scraping

我试图刮掉example.com,但在抓了100页后,该网站被封锁了.

我该如何纠正？

AWS是否有助于避免阻止？

Answer 1

Guy*_*ely 5

请参阅scrapy faq页面上的说明:

避免被禁止一些网站实施某些措施,以防止机器人抓取它们,具有不同程度的复杂性.绕过这些措施可能既困难又棘手,有时可能需要特殊的基础设施.如有疑问,请考虑联系商业支持.

以下是处理这类网站时要记住的一些提示:

从浏览器中的众所周知的池中轮换您的用户代理(谷歌周围获取它们的列表)

禁用cookie(请参阅COOKIES_ENABLED),因为某些站点可能使用cookie来发现僵尸程序行为

使用下载延迟(2或更高).请参阅DOWNLOAD_DELAY设置.如果可能,请使用Google缓存来抓取网页,而不是直接点击网站

使用旋转IP池.例如,免费的Tor项目或像ProxyMesh这样的付费服务

使用高度分布的下载器来绕过内部禁令,因此您可以专注于解析干净的页面.这种下载器的一个例子是Crawlera

如果您仍无法阻止机器人被禁止,请考虑联系商业支持.

归档时间：	11 年，10 月前
查看次数：	1186 次
最近记录：	10 年，12 月前