是否允许网页抓取?

Mik*_*kel 28 web-scraping

我正在开发一个需要来自其他网站的某些统计数据的项目,并且我已经创建了一个HTML scraper,可以每15分钟自动获取一次这些数据.但是,我现在停止了机器人,就像他们的使用条款一样,他们提到他们不允许它.

我真的很想尊重这一点,特别是如果有法律禁止我接受这些数据,但我已经多次通过电子邮件与他们联系而没有一个答案,所以现在我得出的结论是,我只是简单地说抓住数据,如果它是合法的.

在某些论坛上,我已经读到它是合法的,但我更愿意在StackOverflow上获得更"精确"的答案.

让我们说这实际上并不违法,他们是否有任何软件可以发现我的机器人每隔15分钟建立几个连接?

此外,在谈论获取他们的数据时,我们正在讨论每个"团队"的单个号码,而这个号码我将转移到我们自己的号码.

And*_* H. 40

我引用Pablo Hoffman的(Scrapinghub联合创始人)回答"网络抓取的合法性是什么?",我在其他网站上找到:

首先要做的事情:我不是律师,这些评论完全基于我在Scrapinghub工作的经验,请相应地寻求法律援助.

从网站上抓取公共数据时需要考虑的一些事项(请注意,以下仅涉及美国法律):

  • 只要他们不以破坏性的速度爬行,刮刀就不会违反任何合同(以使用条款的形式)或犯罪(如"计算机欺诈和滥用法案"中所定义).
  • 网站的用户协议不能作为browsewrap协议强制执行,因为公司没有向网站访问者提供足够的条款通知.
  • Scrapers作为访问者访问网站数据,并遵循类似于搜索引擎的路径.这可以在不注册为用户的情况下完成(并明确接受任何条款).
  • 在Nguyen v.Barnes&Noble,Inc.法院裁定,只是在网页底部设置使用条款的链接不足以"引起建设性的通知".换句话说,公共页面上没有任何内容暗示仅仅访问信息受任何合同条款的约束.刮刀既没有明确也没有暗示同意任何协议,因此没有违反任何合同.
  • 例如,社交网络分配成为用户的价值(基于公共页面上的号召性用语),作为以下能力:i)获得对完整档案的访问权限,ii)识别共同的朋友/连接,iii)获取介绍给其他人,iv)直接联系会员.只要抓取者不试图执行任何这些操作,他们就不会"未经授权访问"他们的服务,因此不会违反CFAA
  • 可以在此处查看对所涉及法律问题的全面评估:http://www.bna.com/legal-issues-raised-by-the-use-of-web-crawling-and-scraping-tools-for-analytics -purposes

  • 这是我认为我会得到答案的最接近的,所以我将这个标记作为答案.谢谢! (2认同)

ank*_*zet 5

必须有robots.txt该站点的根文件夹中

有指定的路径,用于forbidden骚扰报废者,以及那些allowed(指定可接受的超时)。

如果该文件不存在 - 任何内容都是允许的,并且您对网站所有者未能提供该信息不承担任何责任。


另外,在这里您可以找到有关 的一些解释robots exclusion standard

  • 打了就跑?不错的意识形态... (3认同)
  • 尽管阅读 robots.txt 并仅抓取允许的页面是合乎道德的,但这并不是法律强制执行的 (2认同)