正则表达式php:在div中找到所有内容

Fif*_*ion 3 html php regex extract

我正在尝试使用regexp在div中找到eveything.我知道可能有一种更聪明的方法 - 但我选择了regexp.

所以目前我的正则表达式模式如下:

$gallery_pattern = '/<div class="gallery">([\s\S]*)<\/div>/';  
Run Code Online (Sandbox Code Playgroud)

它有点诀窍.

问题是如果我有两个divs - 像这样.

<div class="gallery">text to extract here</div>
<div class="gallery">text to extract from here as well</div>
Run Code Online (Sandbox Code Playgroud)

我想从两个div中提取信息,但是在测试时我的问题是我没有得到文本介于其间而是:

"text to extract here </div>  
<div class="gallery">text to extract from here as well"
Run Code Online (Sandbox Code Playgroud)

所以总结一下.它会跳过div的第一端.并继续下一个.在div内的文本可以包含<,/和换行.只是你知道!

有没有人有这个问题的简单解决方案?我仍然是一个正则表达新手.

med*_*iev 12

当有一个方便的DOM库时,你不应该使用正则表达式来解析HTML:

$str = '
<div class="gallery">text to extract here</div>
<div class="gallery">text to extract from here as well</div>
';

$doc = new DOMDocument();
$doc->loadHTML($str);
$divs = $doc->getElementsByTagName('div');

if ( count($divs ) ) {
    foreach ( $divs as $div ) {
    echo $div->nodeValue . '<br>';
    }
}
Run Code Online (Sandbox Code Playgroud)

  • +1表示正确的方法,即使它不使用正则表达式. (3认同)

Pas*_*TIN 9

这样的事情怎么样:

$str = <<<HTML
<div class="gallery">text to extract here</div>
<div class="gallery">text to extract from here as well</div>
HTML;

$matches = array();
preg_match_all('#<div[^>]*>(.*?)</div>#', $str, $matches);

var_dump($matches[1]);
Run Code Online (Sandbox Code Playgroud)

注意'?' 在正则表达式中,所以它"不贪心".

哪个会给你:

array
  0 => string 'text to extract here' (length=20)
  1 => string 'text to extract from here as well' (length=33)
Run Code Online (Sandbox Code Playgroud)

这应该可以正常工作......如果你没有瓦片化的div; 如果你这样做......嗯......实际上:你真的确定要使用理性表达式解析HTML,这本身就不那么理性吗?

  • @downvoter:拜托,你能解释一下你的答案是什么问题吗?这对每个人都有好处:回答(我)的人,所以他不会再犯同样的错误; 和人们一起阅读答案,所以他们知道它有什么不对,以及......(如果是因为我使用了正则表达式:嗯,OP表示他知道有更好的方法,但他说他想要一个正则表达式.. .) (2认同)