Fif*_*ion 3 html php regex extract
我正在尝试使用regexp在div中找到eveything.我知道可能有一种更聪明的方法 - 但我选择了regexp.
所以目前我的正则表达式模式如下:
$gallery_pattern = '/<div class="gallery">([\s\S]*)<\/div>/';
Run Code Online (Sandbox Code Playgroud)
它有点诀窍.
问题是如果我有两个divs - 像这样.
<div class="gallery">text to extract here</div>
<div class="gallery">text to extract from here as well</div>
Run Code Online (Sandbox Code Playgroud)
我想从两个div中提取信息,但是在测试时我的问题是我没有得到文本介于其间而是:
"text to extract here </div>
<div class="gallery">text to extract from here as well"
Run Code Online (Sandbox Code Playgroud)
所以总结一下.它会跳过div的第一端.并继续下一个.在div内的文本可以包含<
,/
和换行.只是你知道!
有没有人有这个问题的简单解决方案?我仍然是一个正则表达新手.
med*_*iev 12
当有一个方便的DOM库时,你不应该使用正则表达式来解析HTML:
$str = '
<div class="gallery">text to extract here</div>
<div class="gallery">text to extract from here as well</div>
';
$doc = new DOMDocument();
$doc->loadHTML($str);
$divs = $doc->getElementsByTagName('div');
if ( count($divs ) ) {
foreach ( $divs as $div ) {
echo $div->nodeValue . '<br>';
}
}
Run Code Online (Sandbox Code Playgroud)
这样的事情怎么样:
$str = <<<HTML
<div class="gallery">text to extract here</div>
<div class="gallery">text to extract from here as well</div>
HTML;
$matches = array();
preg_match_all('#<div[^>]*>(.*?)</div>#', $str, $matches);
var_dump($matches[1]);
Run Code Online (Sandbox Code Playgroud)
注意'?' 在正则表达式中,所以它"不贪心".
哪个会给你:
array
0 => string 'text to extract here' (length=20)
1 => string 'text to extract from here as well' (length=33)
Run Code Online (Sandbox Code Playgroud)
这应该可以正常工作......如果你没有瓦片化的div; 如果你这样做......嗯......实际上:你真的确定要使用理性表达式解析HTML,这本身就不那么理性吗?