Far*_*ker 2 c# web-crawler google-crawlers
我正在创建一个新的网络爬虫,C#用于抓取一些特定的网站.一切都很好.但问题是有些网站在一些请求后阻止我的抓取工具IP地址.我尝试在抓取请求之间使用时间戳.但没有奏效.
有什么方法可以阻止网站阻止我的抓取工具?像这样的一些解决方案会有所帮助(但我需要知道如何应用它们):
任何解决方案都有帮助
aro*_*oth 13
如果速度/吞吐量不是一个大问题,那么可能最好的解决方案是安装Tor和Privoxy并通过它来路由您的爬虫.然后,您的抓取工具将具有随机更改的IP地址.
如果您需要抓取不希望对其进行爬网的网站,这是一种非常有效的技术.它还通过使爬虫的活动很难追溯到您而提供一层保护/匿名.
当然,如果网站阻止你的抓取工具因为速度太快,那么也许你应该对它进行速率限制.
| 归档时间: |
|
| 查看次数: |
5036 次 |
| 最近记录: |