PHP解析HTML代码

Question

PHP解析HTML代码

可能重复:
解析HTML的最佳方法

我如何解析PHP变量中保存的HTML代码,如下所示:

<h1>T1</h1>Lorem ipsum.<h1>T2</h1>The quick red fox...<h1>T3</h1>... jumps over the lazy brown FROG!

Run Code Online (Sandbox Code Playgroud)

我想只得到标题之间的文本,我理解使用正则表达式不是一个好主意.

Answer 1

sha*_*mar 109

使用PHP 文档对象模型:

<?php
   $str = '<h1>T1</h1>Lorem ipsum.<h1>T2</h1>The quick red fox...<h1>T3</h1>... jumps over the lazy brown FROG';
   $DOM = new DOMDocument;
   $DOM->loadHTML($str);

   //get all H1
   $items = $DOM->getElementsByTagName('h1');

   //display all H1 text
   for ($i = 0; $i < $items->length; $i++)
        echo $items->item($i)->nodeValue . "<br/>";
?>

Run Code Online (Sandbox Code Playgroud)

输出为:

 T1
 T2
 T3

Run Code Online (Sandbox Code Playgroud)

[编辑]:OP澄清后:

如果你想要像Lorem ipsum这样的内容.等,你可以直接使用这个正则表达式:

<?php
   $str = '<h1>T1</h1>Lorem ipsum.<h1>T2</h1>The quick red fox...<h1>T3</h1>... jumps over the lazy brown FROG';
   echo preg_replace("#<h1.*?>.*?</h1>#", "", $str);
?>

Run Code Online (Sandbox Code Playgroud)

这个输出:

Lorem ipsum.快速的红狐狸......跳过懒惰的棕色FROG

归档时间：	15 年，3 月前
查看次数：	109441 次
最近记录：	14 年，1 月前