我有一个严肃的问题.忽略网站上robots.txt文件的存在是否合乎道德?这些是我想到的一些注意事项:
如果有人放了一个网站,他们就会期待一些访问.当然,网络抓取工具使用带宽而不点击可能支持该网站的广告,但网站所有者正在将他们的网站放在网络上,这对他们来说,他们永远不会被机器人访问是多么合理?
一些网站显然使用了robots.txt,以防止他们的网站被Google或其他可能抢占价格的实用程序抓取,因此可以让人们轻松进行价格比较.他们在网站上有私人搜索引擎,所以他们显然希望人们能够搜索网站; 显然他们只是不希望人们能够轻松地将他们的信息与其他供应商进行比较.
正如我所说,我不是要争论; 我想知道是否有人提出过一个案例,在道德上允许忽略robots.txt文件的存在?我不能想到一个允许忽略robots.txt的情况,主要是因为人们(或企业)正在付钱建立他们的网站,所以他们应该能够告诉谷歌/ Yahoos /其他SE的世界他们不想成为他们的指数.
为了讨论这个问题,我想创建一个价格比较网站,其中一个主要供应商有一个robots.txt,基本上可以防止任何人抓住他们的价格.我希望能够获得他们的信息,但正如我所说,我不能完全忽视网站所有者的意愿.
我在这里看到了一些非常尖锐的讨论,这就是为什么我想听听Stack Overflow之后的开发人员的意见.
顺便说一句,关于黑客新闻问题的这个主题有一些讨论,但他们似乎主要关注这个问题的法律方面.
ric*_*ent 45
参数:
Gre*_*ill 28
另一个用途robots.txt
是帮助保护网络蜘蛛自己.网络蜘蛛相对容易陷入无限深的链接林中,而正确构建的robots.txt
文件会告诉蜘蛛"你不需要去这里".
许多人试图通过建立抓取主要网站的“价格比较”引擎来建立业务。
一旦您开始获得任何类型的流量/收入,您将收到停止通知。它发生在数十个,甚至数百个项目中。我什至参与了一个从 Craigslist 获得 C&D 的小项目。
你知道他们怎么说“请求宽恕比获得许可更容易”吗?它不适用于页面抓取。获得许可,否则您将听取他们律师的意见。
如果你很幸运,那会很早,那时你已经没有什么可失去的了。如果迟到,您可能会因为一封信而一夜之间失去您的生意和所有工作。
获得许可应该不难。除非你做一些偷偷摸摸的事情,否则你很可能会给他们带来额外的流量。见鬼,一旦你的产品起飞,网站可能会乞求你,甚至付钱给你添加他们的数据。
归档时间: |
|
查看次数: |
5338 次 |
最近记录: |