Ock*_*zor 9 web-crawler honeypot
我最近正在读一本书作为面试准备,并遇到了以下问题:
当你的爬行器碰到一个产生无限子图的蜜罐时,你会怎么做才能让你四处闲逛?
我想为这个qn得到一些解决方案.就个人而言,我会采取某种形式的深度限制搜索,以防止不断穿越.或者也许使用某种形式的机器学习来检测模式.思考?
fyr*_*fyr 7
最常见的是无限子图由链接深度阻止.因此,您获得了一组初始网址,您将从每个网址遍历到有限的深度.在限制遍历深度的同时,您可以使用一些启发式方法根据网页特征动态调整它.更多信息可以在这里找到.
另一种选择是尝试某种模式匹配.但是根据产生子图的算法,这将是一个非常(非常非常非常)艰巨的任务.这也至少是一项非常昂贵的操作.
对于面试问题(关于检测无限循环):
如果他们问这个问题,有人想听听停止问题的提法
Alan Turing在1936年证明,不存在解决所有可能的程序输入对的暂停问题的通用算法.
归档时间:
14 年,1 月 前
查看次数:
3117 次
最近记录: