mk_*_*_89 1 php recursion web-crawler
我正在谈论进行大约5分钟以上的深度递归,这可能是你可能有一个爬虫表演的东西.为了提取网页的url链接和子url链接
似乎PHP中的深度递归似乎并不现实
例如
getInfo("www.example.com");
function getInfo($link){
$content = file_get_content($link)
if($con = $content->find('.subCategories',0)){
echo "go deeper<br>";
getInfo($con->find('a',0)->href);
}
else{
echo "reached deepest<br>";
}
}
Run Code Online (Sandbox Code Playgroud)
用递归做这样的事情在任何语言中都是一个坏主意.您无法知道爬虫的深度,因此可能会导致堆栈溢出.如果没有,它仍会浪费大量内存,因为PHP没有尾调用(除非必要,不保留任何堆栈信息).
将找到的URL推送到"to crawl"队列,迭代检查:
$queue = array('www.example.com');
$done = array();
while($queue) {
$link = array_shift($queue);
$done[] = $link;
$content = file_get_contents($link);
if($con = $content->find('.subCategories', 0)) {
$sublink = $con->find('a', 0)->href;
if(!in_array($sublink, $done) && !in_array($sublink, $queue)) {
$queue[] = $sublink;
}
}
}
Run Code Online (Sandbox Code Playgroud)