在php上需要一个好的HTML解析器

Question

extracting this page http://php.net/manual/en/function.curl-setopt.php
and parse it to plain html, it failed and returned a partial html page

这就是我想要做的事情,转到一个html页面并获得单独的组件(层次结构中所有div和p的内容)我喜欢simplehtmldom的功能,任何这样的解析器都是必需的,这对所有代码都很好(最好的和最差).

Answer 1

我经常使用DOMDocument::loadHTML,在一般情况下工作也不错 - 我喜欢查询文档,一旦它们作为DOM加载,就可以了Xpath.

不幸的是,我认为,在某些情况下,如果HTML页面确实形成不良,可能会出现一些解析问题...... 那时你开始明白尊重网络标准是个好主意......