保护网站内容免受抓取工具的侵害

Question

保护网站内容免受抓取工具的侵害

Ger*_*orm 5 security asp.net-mvc web-crawler

商业网站(ASP.NET MVC)的内容经常被竞争对手抓取.这些人是程序员,他们使用复杂的方法来抓取网站,因此无法通过IP识别它们.不幸的是,用图像替换值不是一种选择,因为网站应该仍然可以被屏幕阅读器(JAWS)读取.

我的个人想法是使用robots.txt:禁止抓取工具访问页面上的一个公共URL(这可能伪装成正常的项目详细信息链接,但对普通用户隐藏有效URL:http://example.com？itemId = 1234 禁止:http : //example.com? itemId= 123 128下.如果IP所有者进入禁止链接,则显示CAPTCHA验证.普通用户永远不会关注这样的链接,因为它不可见,谷歌不必抓取它,因为它是虚假的.这个问题是屏幕阅读器仍然读取链接,我认为这不值得实施.

Answer 1

Tom*_*res 2

您的想法可能适用于一些基本的爬虫，但很容易解决。他们只需要使用代理并从新 IP 获取每个链接。

如果您允许匿名访问您的网站，那么您永远无法完全保护您的数据。即使您花费大量时间和精力设法阻止爬虫，它们也只能让人类使用 fiddler 之类的工具来浏览和捕获内容。防止竞争对手看到您的数据的最佳方法是不要将其放在网站的公共部分。

强制用户登录可能会有所帮助，至少这样您就可以找出谁在抓取您的网站并禁止他们。

归档时间：	14 年，7 月前
查看次数：	1132 次
最近记录：	6 年，7 月前