公司是否具有抓取我网站的隐含权利?

kra*_*lyk 30 web-crawler

我发现 McAfee SiteAdvisor 已将我的网站报告为“可能存在安全问题”

我不太关心 McAfee 对我网站的看法(我可以自己保护它,如果没有,McAfee 绝对不是我要寻求帮助的公司,非常感谢)。然而,令我困扰的是,他们显然未经我的许可就抓取了我的网站。

澄清一下:我的网站上几乎没有任何内容,只有一些占位符和一些供我个人使用的文件。没有服务条款。

我的问题是:McAffee 是否有权从我的网站下载内容/抓取我的网站?我可以禁止他们这样做吗?我有一种感觉应该有某种“我的城堡,我的规则”原则,但是我基本上对所有法律一无所知。

更新:我可能应该提到我的服务器提供商会定期向我发送有关 SiteAdvisor 调查结果的电子邮件——这就是我发现他们的“评级”的方式,这也是我生气的原因。

Dan*_*Dan 90

是的,他们有权这样做——你已经创建了一个公共网站,是什么让你认为他们没有?

当然,您也有权阻止他们。您可以要求他们不要使用robots.txt抓取您的网站,或者使用诸如fail2ban 之类的东西主动阻止他们访问它。

或者,不要担心,继续你的生活。它没有伤害任何东西,绝对是互联网探测的良性一面。

  • @kralyk - 如果您不希望公众(包括 McAfee)看到它,请不要将其放在网络上。就这么简单。您控制您的网站。没有人强迫你把它放在那里,如果你不想让人们看到它,那就不要把它放在那里。如果你打算把它放在那里,那么不要对人们(包括想卖给你东西的人)正在看它感到惊讶。不要试图把你的欲望变成别人的问题。 (16认同)
  • @kralyk:认真的?你真的认为这里的问题是双重标准吗?McAfee 的任何人都不知道也不关心您的网站。他们也不应该。期望任何人在网上爬行来阅读每个人的 ToS 是荒谬的。这就是robot.txt被发明的原因。 (9认同)
  • > _“是的,他们有权这样做——你已经创建了一个公共网站,是什么让你认为他们没有?”_好吧,如果某件事在技术上可行,并不一定意味着它是合法的。例如,YouTube 的 ToS 禁止下载视频,因此,尽管它在技术上非常简单,但仍然不允许。如果不是我的提供商向我发送有关我的网站“可能有问题”的电子邮件,我不会担心 SiteAdvisor... (4认同)
  • @kralyk - 您认为 McAfee 违反了(不尊重)您网站上的哪种 ***TOS***? (4认同)
  • @kralyk 必须限制对相关资源的访问,以使 ToS 接近有意义。机器人抓取您未受保护的页面与某人注册帐户、确认 ToS,然后将凭据提供给机器人完全不同。 (3认同)
  • 我想知道,最终,这是否可能属于公共摄影。任何你能在街上看到的东西,你都可以在没有执照的情况下拍照。 (2认同)

小智 49

这有法律先例。Field 诉 Google Inc., 412 F. Supp. 2d 1106,(美国地区内华达州 2006 年)。谷歌基于几个因素赢得了简易判决,最值得注意的是,作者没有在其网站的元标记中使用 robots.txt 文件,这会阻止谷歌抓取和缓存网站所有者不想编入索引的页面。

裁决.pdf

美国没有专门处理 robots.txt 文件的法律;然而,另一起法庭案件开创了一些先例,最终可能导致 robots.txt 文件被视为规避为保护内容而采取的故意电子措施。在 HEALTHCARE ADVOCATES, INC 与 HARDING、EARLEY、FOLLMER & FRAILEY 等的比较中。al,Healthcare Advocates 认为,Harding 等人本质上是入侵了 Wayback Machine 的功能,以便访问具有较新版本的 robots.txt 文件的页面的缓存文件。虽然医疗保健倡导者在此案中败诉,但地方法院指出,问题不在于 Harding 等人“撬开了锁”,而是因为 Wayback Machine 的服务器负载问题允许访问这些文件,因此他们获得了对文件的访问权限。缓存文件时不应该

法院裁决.pdf

这是唯一的一次恕我直言的问题,直到有人将这一裁决上并开启其方:法院指出的robots.txt一个锁,以防止抓取和规避它 采摘锁。

不幸的是,其中许多诉讼并不像“我试图告诉您的爬虫这是不允许的,而您的爬虫忽略了这些设置/命令”那么简单。在所有这些案例中,还有许多其他问题最终影响结果,而不是根据美国 DCMA 法律是否应将 robots.txt 文件视为电子保护方法这一核心问题。

话虽如此,这是美国的法律,中国人可以为所欲为——不是因为法律问题,而是因为中国不会执行美国商标和版权保护,所以祝他们好运。

不是一个简短的答案,但对于您的问题确实没有一个简短的答案!

  • @kralyk - 重新“这些公司可以简单地忽略它。”。嗯,是。这就是互联网的运作方式。即使它在某种程度上更基本,对于爬虫来说,假装它是一个访问您网页的人也是微不足道的,绝对微不足道的。您要求在技术上**不可能**。的确,如果你仔细思考你所问的,你所寻求的就不合逻辑,它没有意义。除了法律上的区别。您唯一可能的保护措施是 (1) 将重要内容隐藏在用户登录身份验证之后,以及 (2) 法律保护,如本答案所述。 (12认同)
  • @jcanker 这两个案例是关于版权侵权索赔的。在缓存内容的爬虫的行为中,例如由 Google 和 archive.org 运营的爬虫,版权问题的出现是完全合理的。但 McAfee SiteAdvisor 实际上并没有从它访问的网站复制和存储(更不用说公开提供)内容,对吗?虽然我不是律师,但我认为这种区别让我们有理由*强烈怀疑*任何一种情况都适用于像 SiteAdvisor 这样的系统的行为,*不管*它是否尊重 robots.txt . (5认同)

Fal*_*mot 11

这种行为是否合乎道德还不是很清楚。

爬取公共站点的行为本身并不是不道德的(除非您使用 robots.txt 或其他技术措施明确禁止它,并且他们正在规避它们)。

他们正在做的事情大致相当于冷冷地打电话给您,同时向全世界宣布您可能不安全。如果这损害了您的声誉并且是不合理的,那就是不道德的;如果它这样做了,而唯一的解决办法是你付钱给他们,那就是敲诈勒索。但是,我不认为这是正在发生的事情。

另一次这变得不道德的是,当有人抓取您的网站以获取您的内容或数据,然后将其表示为他们自己的。但是,这也不是正在发生的事情。

所以,我建议他们在这种情况下的行为是合乎道德的,你也很可能可以忽略它。

如果您与他们没有关系并且没有请求电子邮件,他们向您发送垃圾邮件的相关行为是不道德的,但我怀疑他们有一个有效的退订。

  • @MichaelKjörling,只有一半同意。没有真正的安全,但有义务。这是一个禁止进入的标志,你的义务是禁止进入,因为你没有进入的许可。 (2认同)