从没有提供API的网站消费内容的最合乎道德的方式是什么?

Nan*_*ada 17 javascript google-app-engine web-scraping

我想知道在某个站点B中使用应用程序(例如Google App Engine)从某个站点A消耗一些字节(精确地来自386个)的最合乎道德的方式是什么,但是做得对,没有抓到的意图,我实际上只需要检查公共服务的状态,他们目前没有提供任何API.因此,站点A中的标记具有一个JavaScript数组,其中包含我需要的信息,并且能够访问,即每五分钟一次就足够了.

任何建议将不胜感激.

更新:

首先,非常感谢您的反馈.站点A基本上是目前运行我们的公共地铁网络公司的网站,所以我打算开发一个微小的免费Android应用程序,任何人都不仅与整个网络地图和站,但对还更新信息服务的可用性(以及那些我将最终消耗的字节),等等.

Mat*_*ott 9

将会有一些非常不同的观点,但希望这是一些值得思考的东西:

  1. 首先询问网站所有者,如果他们提前知道他们不太可能生气.
  2. 站点A上的内容是否可以在站点的公共部分访问,例如,无需登录?
  3. 如果答案#2的是,它是公共的内容,那么我就不会看到一个问题,因为刮网站的信息是真的没有什么不同,然后在该网站指向你的浏览器和阅读它自己.
  4. 当然,#3的答案取决于网站的货币化方式.如果网站A提供了为网站创收的广告,那么开始抓取内容可能不是一个想法,因为您将绕过网站赚钱的方式.

我认为最重要的事情是先与网站所有者交谈,然后直接与他们确定:

  1. 我可以从他们的网站上抓取内容.
  2. 他们是否有管道中的API(只需突出显示愿望可能会促使他们考虑它).

只是我的观点......

  • 所有的好处.我添加:提供属性源,带链接.(如果你在没有得到许可的情况下这样做,那就当然是这样做了.并且期望,如果你未经许可这样做,你可能最终会被阻止.每五个mniutes不是一个DoS,但它仍然是可疑的活动,可能很好被管理员阻止.) (4认同)