找到这个http://simplehtmldom.sourceforge.net/但它无法工作
extracting this page http://php.net/manual/en/function.curl-setopt.php
and parse it to plain html, it failed and returned a partial html page
Run Code Online (Sandbox Code Playgroud)
这就是我想要做的事情,转到一个html页面并获得单独的组件(层次结构中所有div和p的内容)我喜欢simplehtmldom的功能,任何这样的解析器都是必需的,这对所有代码都很好(最好的和最差).
我经常使用DOMDocument::loadHTML,在一般情况下工作也不错 - 我喜欢查询文档,一旦它们作为DOM加载,就可以了Xpath.
不幸的是,我认为,在某些情况下,如果HTML页面确实形成不良,可能会出现一些解析问题...... 那时你开始明白尊重网络标准是个好主意......