如何解析HTML/XML并从中提取信息?
我需要匹配所有这些开始标记:
<p>
<a href="foo">
Run Code Online (Sandbox Code Playgroud)
但不是这些:
<br />
<hr class="foo" />
Run Code Online (Sandbox Code Playgroud)
我想出了这个,并希望确保我做对了.我只抓住了a-z.
<([a-z]+) *[^/]*?>
Run Code Online (Sandbox Code Playgroud)
我相信它说:
/,然后我有这个权利吗?更重要的是,你怎么看?
在MAC上的MAMP下运行PHP 5.3.6,内存使用量会增加每x次调用(3到8之间),直到脚本因内存耗尽而死亡.我该如何解决?
libxml_use_internal_errors(true);
while(true){
$dom = new DOMDocument();
$dom->loadHTML(file_get_contents('http://www.ebay.com/'));
unset($dom);
echo memory_get_peak_usage(true) . '<br>'; flush();
}
Run Code Online (Sandbox Code Playgroud) php ×2
domdocument ×1
html ×1
html-parsing ×1
memory-leaks ×1
parsing ×1
regex ×1
xhtml ×1
xml ×1
xml-parsing ×1