正则表达式,2 个 html 标签之间的所有内容 vb.net

use*_*583 3 vb.net

我正在尝试通过 Visual Basic 2010 上的正则表达式获取网页的一些信息

它是这样的:

<SPAN CLASS="clear"></SPAN>
<h2> blabla </h2>
<h2> blabla </h2>
<b> blabla </b>

etc etc

<SPAN CLASS="clear"></SPAN>
Run Code Online (Sandbox Code Playgroud)

我想要的是 2 之间的所有内容以及 h2 标签和所有其他存在的 html 标签。

这可能吗?

我已经尝试过 (. ?) 和 . 和 \w* 但它不返回任何东西......

alu*_*ndy 5

最好为此使用 XML 解析器,但我假设它是一次性抓取或类似的。

如果我理解正确,这应该会获取标签之间的所有数据:

Dim regex As New Text.RegularExpressions.Regex("<.*?>", RegexOptions.Singleline)
Dim result As String = regex.Replace(yourHtml, String.Empty)
Run Code Online (Sandbox Code Playgroud)

您可以使用它来获取 H2 标签和数据:

Dim regex As New Text.RegularExpressions.Regex("<\s*h2[^>]*>(.*?)<\s*/\s*h2>", RegexOptions.Singleline)
Dim results As New Text.StringBuilder
For Each m As Text.RegularExpressions.Match In regex.Matches(yourHtml)
    results.Append(m.Value)
Next
Run Code Online (Sandbox Code Playgroud)