Cor*_*man 5 php xpath domxpath
我正在构建一个使用XPath来分析HTML的命令行php scraping app - 问题是每次在循环中加载新的DOMXPath类实例时我的内存丢失大致等于正在加载的XML的大小.该脚本运行并运行,慢慢增加内存使用量,直到达到限制并退出.
我已经尝试强制垃圾收集,gc_collect_cycles()PHP仍然没有从旧的Xpath请求中获取内存.实际上,DOMXPath类的定义似乎甚至不包含析构函数?
所以我的问题是...... DOMXPath在我已经提取了必要的数据后,有没有办法强制垃圾清理?在类实例上使用unset可以预测不会做任何事情.
代码没什么特别的,只是标准的Xpath东西:
//Loaded outside of loop
$this->dom = new DOMDocument();
//Inside Loop
$this->dom->loadHTML($output);
$xpath = new DOMXPath($this->dom);
$nodes = $xpath->query("//span[@class='ckass']");
//unset($this->dom) and unset($xpath) doesn't seem to have any effect
Run Code Online (Sandbox Code Playgroud)
正如您在上面所看到的,我已经DOMDocument在循环之外保留了新类的实例化,尽管这似乎并没有提高性能.我甚至尝试将$xpath类实例从循环中取出并使用该__constructor方法直接将DOM加载到Xpath中,内存丢失是相同的.
看到这个答案她多年没有结论,终于更新了!我现在遇到了类似的问题,事实证明DOMXPath只是泄漏了内存,而你无法控制它。到目前为止,我还没有搜索过 bug.php.net 上是否有报告(这可能对以后编辑很有用)。
我找到的解决问题的“有效”解决方案只是解决方法。基本思想是将DOMNodeList Traversable返回的 by替换DOMXPath::query()为包含相同节点的不同返回。
最合适的解决方法是DOMXPathElementsIterator允许您查询问题中的具体 xpath 表达式,而不会出现内存泄漏:
$nodes = new DOMXPathElementsIterator($this->dom, "//span[@class='ckass']");
foreach ($nodes as $span) {
...
}
Run Code Online (Sandbox Code Playgroud)
该类现在是Iterator-Garden 开发版本的一部分,并且$nodes是所有 DOMElement 的迭代器<span>。
此解决方法的缺点是 xpath 结果仅限于SimpleXMLElement::xpath()结果(这与DOMXPath::query()),因为它在内部使用以防止内存泄漏。
另一种选择是使用类似于 所返回的DOMNodeListIteratora 。然而这些迭代是缓慢的。DOMNodeListDOMDocument::getElementsByTagname()
希望这有一些用处,即使这个问题真的很老了。它在类似的情况下帮助了我。
仅当不再引用(使用)对象时,调用垃圾收集清理循环才有意义。
例如,如果您一遍又一遍地DOMXPath为同一对象创建一个新对象(请记住它与仍然存在的对象相连),听起来就像是您的内存“泄漏”。你只是使用越来越多的内存。DOMDocumentDOMDocument
相反,您可以重复使用现有DOMXPath对象,就像您一直重复使用该DOMDocument对象一样。试一试:
//Loaded outside of loop
$this->dom = new DOMDocument();
$xpath = new DOMXPath($this->dom);
//Inside Loop
$this->dom->loadHTML($output);
$nodes = $xpath->query("//span[@class='ckass']");
Run Code Online (Sandbox Code Playgroud)