面试问题:蜜罐和网络抓取工具

Question

我最近正在读一本书作为面试准备,并遇到了以下问题:

当你的爬行器碰到一个产生无限子图的蜜罐时,你会怎么做才能让你四处闲逛？

我想为这个qn得到一些解决方案.就个人而言,我会采取某种形式的深度限制搜索,以防止不断穿越.或者也许使用某种形式的机器学习来检测模式.思考？

Answer 1

最常见的是无限子图由链接深度阻止.因此,您获得了一组初始网址,您将从每个网址遍历到有限的深度.在限制遍历深度的同时,您可以使用一些启发式方法根据网页特征动态调整它.更多信息可以在这里找到.

另一种选择是尝试某种模式匹配.但是根据产生子图的算法,这将是一个非常(非常非常非常)艰巨的任务.这也至少是一项非常昂贵的操作.

对于面试问题(关于检测无限循环):

如果他们问这个问题,有人想听听停止问题的提法

Alan Turing在1936年证明,不存在解决所有可能的程序输入对的暂停问题的通用算法.