简单的PHP屏幕刮擦功能

Yaa*_*qov 2 php blogs screen-scraping

我正在尝试使用WordPress进行自动博客(即RSS驱动的博客发布),所有缺少的是一个组件,用RSS的URL链接到的内容自动填写帖子的内容(RSS与解决方案无关) ).

使用标准的PHP 5,我怎么能创建一个名为fetchHTML([URL])的函数来返回在<body>...</body>标签之间找到的网页的HTML内容?

如果有任何先决条件"包含",请告诉我.谢谢.

JAL*_*JAL 5

好的,这是请求的DOM解析器代码示例.

<?php

function fetchHTML( $url )
  {

  $content = file_get_contents($url);

  $html=new DomDocument();
  $body=$html->getelementsbytagname('body');
  foreach($body as $b){ $content=$b->textContent; break; }//hmm, is there a better way to do that?
  return $content;
  }
Run Code Online (Sandbox Code Playgroud)