如何在PHP中解析和处理HTML/XML？

Question

如何在PHP中解析和处理HTML/XML？

Rob*_*itt 2071 php xml parsing html-parsing xml-parsing

如何解析HTML/XML并从中提取信息？

Answer 1

Gor*_*don 1861

原生XML扩展

我更喜欢使用其中一个原生XML扩展,因为它们与PHP捆绑在一起,通常比所有第三方库更快,并且给了我对标记所需的所有控制权.

DOM

DOM扩展允许您通过PHP API使用PHP 5对XML文档进行操作.它是W3C的文档对象模型核心级别3的实现,这是一个平台和语言中立的接口,允许程序和脚本动态访问和更新文件的内容,结构和风格.

DOM能够解析和修改现实世界(破碎)的HTML,并且可以执行XPath查询.它基于libxml.

使用DOM需要一些时间才能提高效率,但这个时间非常值得IMO.由于DOM是一个与语言无关的接口,因此您可以找到多种语言的实现,因此如果您需要更改编程语言,那么您很可能已经知道如何使用该语言的DOM API.

一个基本的用法示例可以在抓取A元素的href属性中找到,一般的概念概述可以在php的DOMDocument中找到

StackOverflow上已经广泛介绍了如何使用DOM扩展,因此如果您选择使用它,您可以确定您遇到的大多数问题都可以通过搜索/浏览Stack Overflow来解决.

XMLReader的

XMLReader扩展是一个XML pull解析器.读取器在文档流上作为光标前进,并在途中停在每个节点上.

与DOM一样,XMLReader基于libxml.我不知道如何触发HTML解析器模块,因此使用XMLReader解析损坏的HTML的可能性可能不如使用DOM,因为您可以明确告诉它使用libxml的HTML解析器模块.

使用php从h1标签获取所有值时,可以找到一个基本用法示例

XML解析器

此扩展允许您创建XML解析器,然后为不同的XML事件定义处理程序.每个XML解析器还有一些您可以调整的参数.

XML Parser库也基于libxml,并实现了SAX样式的XML推送解析器.它可能是比DOM或SimpleXML更好的内存管理选择,但是比XMLReader实现的pull解析器更难以使用.

SimpleXML的

SimpleXML扩展提供了一个非常简单且易于使用的工具集,用于将XML转换为可以使用普通属性选择器和数组迭代器处理的对象.

当您知道HTML是有效的XHTML时,SimpleXML是一个选项.如果你需要解析破碎的HTML,甚至不要考虑SimpleXml,因为它会窒息.

一个基本的用法示例可以在一个简单的CRUD节点程序和xml文件的节点值中找到,PHP手册中还有很多其他的例子.

第三方库(基于libxml)

如果您更喜欢使用第三方库,我建议使用实际上使用DOM/libxml而不是字符串解析的库.

FluentDom - 回购

FluentDOM为PHP中的DOMDocument提供了类似jQuery的流畅XML接口.选择器是用XPath或CSS编写的(使用CSS到XPath转换器).当前版本扩展了DOM实现标准接口并添加了DOM Living Standard的功能.FluentDOM可以加载JSON,CSV,JsonML,RabbitFish等格式.可以通过Composer安装.

HtmlPageDom

Wa72\HtmlPageDom`是一个用于轻松操作HTML文档的PHP库.它需要来自Symfony2组件的DomCrawler来遍历DOM树,并通过添加操作HTML文档的DOM树的方法来扩展它.

phpQuery(多年未更新)

phpQuery是一个服务器端,可链接,CSS3选择器驱动的文档对象模型(DOM)API,基于用PHP5编写的jQuery JavaScript库,并提供额外的命令行界面(CLI).

另见:https://github.com/electrolinux/phpquery

Zend_Dom

Zend_Dom提供了处理DOM文档和结构的工具.目前,我们提供Zend_Dom_Query,它提供了一个统一的界面,用于使用XPath和CSS选择器查询DOM文档.

的QueryPath

QueryPath是一个用于操作XML和HTML的PHP库.它不仅适用于本地文件,还适用于Web服务和数据库资源.它实现了许多jQuery接口(包括CSS样式的选择器),但它在服务器端使用时经过了大量调整.可以通过Composer安装.

fDOMDocument

fDOMDocument扩展了标准DOM,以便在所有错误情况下使用异常,而不是PHP警告或通知.为方便起见,他们还添加了各种自定义方法和快捷方式,并简化了DOM的使用.

军刀/ XML

saber/xml是一个包装和扩展XMLReader和XMLWriter类的库,用于创建一个简单的"xml到对象/数组"映射系统和设计模式.编写和读取XML是单遍的,因此可以快速并且需要大型xml文件的低内存.

FluidXML

FluidXML是一个用于使用简洁流畅的API来操作XML的PHP库.它利用XPath和流畅的编程模式,既有趣又有效.

第三方(不是基于libxml的)

构建DOM/libxml的好处是,您可以获得良好的开箱即用性能,因为您基于本机扩展.但是,并非所有第三方库都沿着这条路走下去.其中一些列在下面

PHP简单的HTML DOM解析器

用PHP5 +编写的HTML DOM解析器允许您以非常简单的方式操作HTML!

需要PHP 5+.

支持无效的HTML.

使用选择器在HTML页面上查找标签,就像jQuery一样.

从一行中提取HTML中的内容.

我一般不推荐这个解析器.代码库很糟糕,解析器本身很慢而且内存很耗.并非所有jQuery选择器(例如子选择器)都是可能的.任何基于libxml的库都应该比这更容易.

PHP Html解析器

PHPHtmlParser是一个简单,灵活的html解析器,允许您使用任何css选择器(如jQuery)选择标签.目标是帮助开发需要快速,简单的方法来废弃html的工具,无论它是否有效!这个项目最初是由sunra/php-simple-html-dom-parser支持的,但支持似乎已经停止,所以这个项目是我对他以前工作的改编.

同样,我不推荐这个解析器.CPU使用率很高,速度相当慢.还没有清除已创建DOM对象的内存的功能.这些问题尤其适用于嵌套循环.文档本身不准确且拼写错误,自4月14日以来没有回复修复.

加农

通用标记器和HTML/XML/RSS DOM解析器

能够操纵元素及其属性

支持无效的HTML和UTF8

可以对元素执行类似CSS3的高级查询(比如jQuery - 支持的命名空间)

HTML美化器(如HTML Tidy)

缩小CSS和Javascript

排序属性,更改字符大小写,更正缩进等.

扩展

使用基于当前字符/标记的回调解析文档

操作以较小的功能分隔,以便轻松覆盖

快速而简单

从未使用过它.不知道它是否有用.

HTML 5

您可以使用上面的内容来解析HTML5,但由于HTML5允许的标记,可能会有怪癖.因此,对于HTML5,您要考虑使用专用解析器,例如

html5lib

基于WHATWG HTML5规范的HTML解析器的Python和PHP实现,可与主要桌面Web浏览器实现最大兼容性.

HTML5最终确定后,我们可能会看到更多专用解析器.还有一个W3的博客文章,名为How-To for html 5 parsing,值得一试.

网页服务

如果您不想编写PHP,您也可以使用Web服务.一般来说,我发现这些实用程序很少,但那只是我和我的用例.

ScraperWiki.

ScraperWiki的外部界面允许您以您希望在Web或您自己的应用程序中使用的形式提取数据.您还可以提取有关任何刮刀状态的信息.

常用表达

最后也是最不推荐的,您可以使用正则表达式从HTML中提取数据.通常,不鼓励在HTML上使用正则表达式.

您可以在网上找到与标记相匹配的大多数片段都很脆弱.在大多数情况下,它们只适用于非常特殊的HTML.微小的标记更改,例如在某处添加空格,或添加或更改标记中的属性,可以使RegEx在未正确编写时失败.在HTML上使用RegEx之前,您应该知道自己在做什么.

HTML解析器已经知道HTML的语法规则.必须为您编写的每个新RegEx讲授正则表达式.RegEx在某些情况下很好,但它实际上取决于您的用例.

您可以编写更可靠的解析器,但是使用正则表达式编写完整可靠的自定义解析器是浪费时间,因为上述库已经存在并且在此方面做得更好.

另见Parsing Html The Cthulhu Way

图书

如果你想花一些钱,看看吧

PHP架构师使用PHP进行Webscraping指南

我不隶属于PHP Architect或作者.

@Naveed取决于你的需求.我不需要CSS Selector查询,这就是我将DOM与XPath一起使用的原因.phpQuery旨在成为一个jQuery端口.Zend_Dom很轻巧.你真的必须检查它们,看看你最喜欢哪一个. (10认同)
你不使用PHP Simple HTML DOM Parser的观点似乎没有实际意义. (9认同)
@Nasha我故意将上面列表中臭名昭着的Zalgo咆哮排除在外,因为它对它本身并没有太大的帮助,并且自从写完之后导致了相当多的货物崇拜.无论正则表达式如何适合作为解决方案,人们都会被这个链接打倒.要获得更加平衡的意见,请参阅我*做过的链接*并在http://stackoverflow.com/questions/4245008/php-regex-simple-regex-for-bbcode-s-or-上查看评论.罢工失败到工作 (4认同)
随着2012年3月29日的,DOM不支持HTML5,XMLReader不能支持HTML和持续的html5lib提交for PHP是在2009年九月什么用解析HTML5,HTML4和XHTML？ (3认同)
@ Ms2ger通常，但不是完全。就像上面已经指出的那样，您可以使用基于libxml的解析器，但是在某些特殊情况下，它们会阻塞。如果需要最大的兼容性，最好使用专用的解析器。我更喜欢保持这种区别。 (2认同)
@Jimmy它没有包含任何关于cURL的内容,因为cURL不是用于解析和处理HTML/XML的工具.cURL是各种网络协议的客户端.例如,您可以使用它获取网站.上面的大多数库都有直接加载远程URL的方法,所以你根本不需要cURL,例如DOM有`loadHTMLFile()`. (2认同)

Answer 2

Nav*_*eed 321

尝试简单的HTML DOM解析器

用PHP 5+编写的HTML DOM解析器,允许您以非常简单的方式操作HTML!
需要PHP 5+.
支持无效的HTML.
使用选择器在HTML页面上查找标签,就像jQuery一样.
从一行中提取HTML中的内容.
下载

例子:

如何获取HTML元素:

// Create DOM from URL or file
$html = file_get_html('http://www.example.com/');

// Find all images
foreach($html->find('img') as $element)
       echo $element->src . '<br>';

// Find all links
foreach($html->find('a') as $element)
       echo $element->href . '<br>';

归档时间：	15 年，4 月前
查看次数：	403075 次
最近记录：	6 年，9 月前

原生XML扩展

第三方库(基于libxml)

FluentDom - 回购

phpQuery(多年未更新)

第三方(不是基于libxml的)

HTML 5

网页服务

ScraperWiki.

常用表达

图书

如何获取HTML元素:

如何修改HTML元素:

从HTML中提取内容:

刮刮Slashdot:

使用示例:

支持的方法:

注意 :