防止自定义Web爬网程序被阻止

Far*_*ker 2 c# web-crawler google-crawlers

我正在创建一个新的网络爬虫,C#用于抓取一些特定的网站.一切都很好.但问题是有些网站在一些请求后阻止我的抓取工具IP地址.我尝试在抓取请求之间使用时间戳.但没有奏效.

有什么方法可以阻止网站阻止我的抓取工具?像这样的一些解决方案会有所帮助(但我需要知道如何应用它们):

  • 模拟谷歌机器人或雅虎诽谤
  • 使用多个IP地址(事件虚假IP地址)作为爬虫客户端IP

任何解决方案都有帮助

aro*_*oth 13

如果速度/吞吐量不是一个大问题,那么可能最好的解决方案是安装Tor和Privoxy并通过它来路由您的爬虫.然后,您的抓取工具将具有随机更改的IP地址.

如果您需要抓取不希望对其进行爬网的网站,这是一种非常有效的技术.它还通过使爬虫的活动很难追溯到您而提供一层保护/匿名.

当然,如果网站阻止你的抓取工具因为速度太快,那么也许你应该对它进行速率限制.