torrentz.eu这样的网站如何收集他们的内容？

Question

我想知道一些搜索网站如何获取他们的内容.我在标题中使用了'torrentz.eu'的例子,因为它有来自多个来源的内容.我想知道这个系统的背后是什么; 他们"只是"解析他们支持的所有网站,然后显示内容？或者使用一些网络服务？或两者？

Answer 1

您正在寻找信息检索的爬行方面.

基本上爬行是:给定一组初始S网站,尝试通过探索链接来扩展它(查找传递闭包¹).

一些网站也使用了聚焦爬虫,如果他们试图从一开始只索引网络的一个子集.

PS某些网站既不会这样做,也会使用Google Custom Search API/Yahoo Boss/Bing Deveoper API提供的服务(当然是收费),并使用他们的索引,而不是自己创建索引.

PPS这提供了一个理论上如何做到这一点的方法,我不知道所提到的网站是如何运作的.

(1)由于时间问题,通常没有发现传递闭包,而是接近它的东西.