爬虫种子列表包含什么？

Question

爬虫种子列表包含什么？

Van*_*del 5 search-engine seed web-crawler google-search

我一直在阅读有关如何实现爬虫的文章。我知道我们从要访问的 URL 列表（种子列表）开始。访问所有这些 URL 并将访问过的页面中的所有链接添加到列表（前沿）中。那么我应该在这个种子列表中添加多少？我是否只需要添加尽可能多的 URL 并希望它们能让我访问 www 上的 URL，这是否真的保证我会在那里获得所有其他 URL？或者有一些惯例可以做到这一点？我的意思是......像谷歌这样的搜索引擎是做什么的？

Answer 1

Gab*_*iel 3

基本上，他们使用网站之间的连接（链接）制作了一个大的网站列表。您的搜索引擎知道的网站越多越好。这里唯一的问题是如何使这个列表变得有用。也就是说，大量的网站可能性并不意味着搜索结果集很好，因此您必须能够辨别每个网页中的重要内容。

但根据你拥有的信息处理能力，没有必要在某个地方停下来。

这并不能确保您能够到达那里的每一个 URL，但它基本上是抓取网络的唯一实用方法。

归档时间：	14 年，9 月前
查看次数：	1570 次
最近记录：	12 年前