小编taz*_*taz的帖子

抓取网站,获取链接,使用PHP和XPATH抓取链接

我想抓取整个网站,我已经阅读了几个线程,但我无法在第二级获取数据.

也就是说,我可以从起始页面返回链接,但后来我找不到解析链接并获取每个链接内容的方法......

我使用的代码是:

<?php

    //  SELECT STARTING PAGE
      $url = 'http://mydomain.com/';
      $html= file_get_contents($url);

     // GET ALL THE LINKS OF EACH PAGE

         // create a dom object

            $dom = new DOMDocument();
            @$dom->loadHTML($html);

         // run xpath for the dom

            $xPath = new DOMXPath($dom);


         // get links from starting page

            $elements = $xPath->query("//a/@href");
            foreach ($elements as $e) {
            echo $e->nodeValue. "<br />";
            }

     // Parse each page using the extracted links?

 ?>

Run Code Online (Sandbox Code Playgroud)

有人可以通过一个例子来帮我解决最后一部分吗？

我将非常感激!

那么,谢谢你的答案!我尝试了一些东西,但我还没有得到任何结果 - 我是编程的新手..

下面,您可以找到我的两个尝试 - 第一个尝试解析链接,第二个尝试用Curl替换file_get内容: