正则表达式，2 个 html 标签之间的所有内容 vb.net

Question

正则表达式，2 个 html 标签之间的所有内容 vb.net

我正在尝试通过 Visual Basic 2010 上的正则表达式获取网页的一些信息

它是这样的：

<SPAN CLASS="clear"></SPAN>
<h2> blabla </h2>
<h2> blabla </h2>
<b> blabla </b>

etc etc

<SPAN CLASS="clear"></SPAN>

Run Code Online (Sandbox Code Playgroud)

我想要的是 2 之间的所有内容以及 h2 标签和所有其他存在的 html 标签。

这可能吗？

我已经尝试过 (. ?) 和 . 和 \w* 但它不返回任何东西......

Answer 1

alu*_*ndy 5

最好为此使用 XML 解析器，但我假设它是一次性抓取或类似的。

如果我理解正确，这应该会获取标签之间的所有数据：

Dim regex As New Text.RegularExpressions.Regex("<.*?>", RegexOptions.Singleline)
Dim result As String = regex.Replace(yourHtml, String.Empty)

Run Code Online (Sandbox Code Playgroud)

您可以使用它来获取 H2 标签和数据：

Dim regex As New Text.RegularExpressions.Regex("<\s*h2[^>]*>(.*?)<\s*/\s*h2>", RegexOptions.Singleline)
Dim results As New Text.StringBuilder
For Each m As Text.RegularExpressions.Match In regex.Matches(yourHtml)
    results.Append(m.Value)
Next

Run Code Online (Sandbox Code Playgroud)

归档时间：	14 年前
查看次数：	12575 次
最近记录：	6 年，12 月前