我正在寻找在PHP中操纵HTML的好方法.例如,我目前遇到的问题是处理格式错误的HTML.
我得到的输入看起来像这样:
<div>This is some <b>text
Run Code Online (Sandbox Code Playgroud)
正如您所注意到的,HTML缺少结束标记.我可以使用正则表达式或XML Parser来解决这个问题.但是,我将来可能不得不进行其他DOM操作.我想知道是否有任何好的PHP库处理DOM操作类似于Javascript处理DOM操作的方式.
cee*_*yoz 11
PHP具有PECL扩展,可让您访问HTML Tidy的功能.Tidy是一个非常强大的库,它应该能够以这种方式获取代码并以智能方式关闭标签.
我用它来清理导入之前由分类广告系统发送给我的格式错误的XML和HTML.
小智 6
我发现PHP Simple HTML DOM是最有用和最直接的库.我会说比PECL更好.
我写了一篇关于如何使用它来抓取myspace艺术家巡演日期的文章(只是一个例子.)这里是php简单html dom解析器的链接.
| 归档时间: |
|
| 查看次数: |
8394 次 |
| 最近记录: |