使用C解析html

15 html c regex parsing

我需要从HTML(XHTML有效)页面中获取一些内容.我使用curl抓取页面并将其存储在内存中.

我玩过使用正则表达式和PCRE库的想法,但我只是找不到任何使用它的例子.然后我继续看看HTML解析器,再次没有一个好的选择.我所能找到的只是一个名为HTMLparser的libxml文档模块.

还有其他选择吗?如果没有,那么我已经找到的例子呢?

Byr*_*ock 12

您想使用HTML整理来执行此操作.Lib curl页面有一些源代码可以帮助你.穿过dom树的文件.您不需要xml解析器.在格式错误的HTML上不会失败.

http://curl.haxx.se/libcurl/c/htmltidy.html


Mic*_*ker 7

我会使用libhtmltidy +任何xml解析器,如expatlibxml.取决于你在寻找什么.

  • 仅供读者参考... HTML 解析器是用于自动超文本标记语言 (HTML) 解析的软件。它们有两个主要目的: HTML 遍历:为程序员提供一个接口,方便地访问和修改“HTML 字符串代码”。典型示例:DOM 解析器。HTML clean:修复无效的 HTML 并改进生成的标记的布局和缩进样式。典型示例:HTML Tidy。 (2认同)