网络抓取工具的法律或道德缺陷？

Question

我的任务是自动比较客户的库存与几个不相关的网店.这些店面不提供API,所以我不得不在python中编写一个爬虫,它将每周对三个网站之间的可用产品和价格进行编目和比较.

我是否应该禁止爬虫的IP地址被禁止,或者是否可以针对来源提出法律投诉？它看起来非常无害(大约500个http页面请求,每个请求相隔一秒,每周执行一次),但这对我来说是一个全新的领域.

Answer 1

道德:您应遵守robots.txt协议,以确保您遵守网站所有者的意愿.Python标准库包含用于此目的的robotparser模块.

Answer 2

是的,你应该(因为未经授权的企业联合组织的屏幕抓取而被禁止IP).此外,不那么谨慎,更有创意的网站所有者将会通过发送格式错误的数据或故意发送错误数据来尝试崩溃/混淆机器人,而不是阻止您的机器人.

如果您的商业模式基于未经授权的屏幕抓取,则会失败.

通常情况下,允许您进行屏幕删除符合网站所有者的利益,因此您可以获得许可(他们不太可能为您制作稳定的API,除非您为此付出了大量金钱).

如果他们不给你许可,你可能不应该.

一些技巧:

如果你真诚地透明地做到这一点,除非他们决定你所做的事情从根本上违背他们的商业模式,否则你不太可能被人类阻挡.

如果你表现得像一个低调的斗篷和匕首,你可以期待敌意.

Answer 3

另请注意,某些数据是专有的,并且其所有者将其视为知识产权.一些网站,如货币兑换网站,搜索引擎和股票市场跟踪器,特别不喜欢他们的数据被抓取,因为他们的业务基本上是在销售您正在抓取的数据.

话虽这么说,在美国,你不能自己版权数据 - 只是你如何格式化数据.因此,根据美国法律,只要您不将其存储在原始格式(HTML)中,就可以抓取已爬网数据.

但是,在许多欧洲国家,数据本身可能受版权保护.网络是一个全球化的野兽.来自欧洲的人可以访问您的网站.根据某些国家的法律,这意味着您在这些国家开展业务.因此,即使你在美国受到法律保护,也并不意味着你不会在世界其他地方被起诉.

我的建议是浏览网站并阅读使用政策.如果该网站明确禁止抓取,那么您不应该这样做.正如吉姆所说,尊重robots.txt.

然而,世界各地的法院都有充足的法律先例,使搜索引擎合法化.搜索引擎本身就是贪婪的网络爬虫.另一方面,看起来几乎每年至少有一家新闻机构起诉或试图起诉谷歌进行网络抓取.

考虑到上述所有因素,请务必小心处理已爬网数据.我会说私人使用是可以的,只要你不重载服务器.我自己定期做电视节目安排等.