网络刮板可以绕过良好的油门保护吗?

bgc*_*ode 8 security http web-scraping

假设数据源设置了严格的基于IP的节流.如果节流开始在下载1%的数据时拒绝其请求,那么网络抓取器是否有任何方式可以下载数据?

我能想到的黑客使用的唯一技术是某种代理系统.但是,似乎代理(即使速度快)最终都会达到节流.

更新:下面的一些人提到了像Yahoo Pipes和Tor这样的大型代理网络,但这些IP范围或已知的退出节点是否也不会被列入黑名单?

roo*_*ook 7

可以免费编辑成千上万或者上帝的列表.可以租用IPv6地址以获得便士.地狱,攻击者可以以每小时2-7美分的价格启动Amazon EC2微型实例.

你想阻止人们刮你的网站?互联网不会那样工作,希望它永远不会.

(我已经看到IRC服务器在客户端上进行端口扫描以查看以下端口是否打开:8080,3128,1080.但是有代理服务器使用不同的端口,并且还有合法的理由来运行代理服务器或拥有这些端口是打开的,就像你运行的是Apache Tomcat一样.你可以通过使用YAPH查看客户端是否正在运行代理服务器来提高它.实际上你也会使用攻击者来对付它们;)