寻找屏幕抓取可能值得的例子

010*_*010 3 screen-scraping

屏幕抓取似乎是一个有用的工具 - 你可以去别人的网站并窃取他们的数据 - 多么美妙!

但是我很难知道这有多大用处.

即使在网络上,大多数应用程序数据也非常特定于该应用程序.例如,假设我从StackOverflow中删除所有问题和答案,或者从谷歌的所有结果中删除(假设这是可能的) - 我留下的数据不是很有用,除非我有一个竞争问题和回答网站(在这种情况下,被盗数据将立即显而易见)或竞争搜索引擎(在这种情况下,除非我有自己的算法,我的数据将很快变得陈旧).

所以我的问题是,在什么情况下,一个应用程序的数据对某些外部应用程序有用?我正在寻找一个实际的例子来说明这一点.

har*_*rpo 5

当站点公开提供(仍然)不可用作XML服务的数据时,它非常有用.我有一个客户使用抓取功能将航班跟踪数据提取到他公司的内部网应用程序中.

该技术也用于研究.我有一个客户想要通过词性比较几个在线词典的内容,所有这些网站都必须被删除.

不是 "窃取"数据的技术.所有普通使用限制均适用.许多网站实施CAPTCHA机制来防止抓取,并且解决这些问题是不合适的.