N3s*_*3sh 3 search search-engine business-intelligence web
我想知道一些搜索网站如何获取他们的内容.我在标题中使用了'torrentz.eu'的例子,因为它有来自多个来源的内容.我想知道这个系统的背后是什么; 他们"只是"解析他们支持的所有网站,然后显示内容?或者使用一些网络服务?或两者?
基本上爬行是:给定一组初始S网站,尝试通过探索链接来扩展它(查找传递闭包1).
一些网站也使用了聚焦爬虫,如果他们试图从一开始只索引网络的一个子集.
PS某些网站既不会这样做,也会使用Google Custom Search API/Yahoo Boss/Bing Deveoper API提供的服务(当然是收费),并使用他们的索引,而不是自己创建索引.
PPS这提供了一个理论上如何做到这一点的方法,我不知道所提到的网站是如何运作的.
(1)由于时间问题,通常没有发现传递闭包,而是接近它的东西.