如何为html解析编写正则表达式?

2 html c++ regex boost html-content-extraction

我正在尝试为我的html解析器编写正则表达式.

我想匹配给定的属性(如一个html标记<div>class="tab news selected"),它包含一个或多个<a href>标签.正则表达式应该与整个标签(从<div></div>).我似乎总是得到"内存耗尽"错误 - 我的程序可能会将它可以找到的每个标记作为匹配的标记.

我正在使用boost regex库.

Bri*_*new 7

你应该看看这个问题.正则表达式和HTML.要点是使用正则表达式来解析HTML绝不是一个理想的解决方案.