Dre*_*kes 6 security denial-of-service tor network-security
我正在开发一个网站,并且对屏幕抓取我的数据敏感.我并不担心刮掉一两页 - 我更关心的是有人抓了数千页,因为这些数据的总量比一小部分更有价值.
我可以想象基于来自单个IP地址的大量流量来阻止用户的策略,但Tor网络设置了许多电路,这实际上意味着单个用户的流量似乎来自不同的IP地址.
我知道有可能检测到Tor流量,因为当我安装Vidalia及其Firefox扩展时,google.com向我提供了验证码.
那么,我该如何检测这些请求呢?
(我的网站是在ASP.NET MVC 2中,但我认为这里使用的任何方法都是语言无关的)
Ail*_*lyn 13
我正在开发一个网站,并且对屏幕抓取我的数据敏感
忘掉它.如果它在网上并且有人想要它,就不可能阻止它们获取它.您实施的限制越多,您就越有可能破坏合法用户的用户体验,合法用户有望成为您的大多数受众.它还使代码难以维护.
我将针对未来答案提出的任何想法发布对策.
您可以根据Tor 出口节点列表检查它们的 IP 地址。我知道事实上这甚至不会减慢那些有兴趣抓取您网站的人的速度。Tor 太慢了,大多数爬虫甚至不会考虑它。有数以万计的开放代理服务器,可以轻松扫描或购买列表。代理服务器很好,因为如果您的请求上限达到了,您可以对它们进行线程化或轮换。
Google 已被 Tor 用户滥用,并且大多数退出节点都在 Google 黑名单上,这就是您获得验证码的原因。
让我完全明确地说: 您无法阻止某人抓取您的网站。