网络爬虫的 BFS 还是 DFS?

cor*_*zza 4 search-engine breadth-first-search web-crawler depth-first-search

我的任务是为搜索引擎创建一个简单的网络爬虫。现在,爬虫应该如何准确地映射网络?跟随他找到的第一个链接就不再返回,或者使用一些更高级的搜索方法,例如 BFS 或 DFS?

Dar*_*dit 5

我确实注意到我回答这个问题有点晚了,但无论如何,这是一个有趣的讨论。

BFS 似乎是一个很好的策略,因为它可以在一定程度上帮助*避免对单个主机的连续请求。也取决于您的域。您仍然需要处理服务器超时,但 DFS 肯定会造成一些损害。同样,在DFS中,你可以有循环引用无限循环运行;除非你做了一些明确的安排。

还可以有其他更合适的选择,但是在DFS和BFS之间,我认为BFS胜出。