我正在尝试通过 Visual Basic 2010 上的正则表达式获取网页的一些信息
它是这样的:
<SPAN CLASS="clear"></SPAN>
<h2> blabla </h2>
<h2> blabla </h2>
<b> blabla </b>
etc etc
<SPAN CLASS="clear"></SPAN>
Run Code Online (Sandbox Code Playgroud)
我想要的是 2 之间的所有内容以及 h2 标签和所有其他存在的 html 标签。
这可能吗?
我已经尝试过 (. ?) 和 . 和 \w* 但它不返回任何东西......
最好为此使用 XML 解析器,但我假设它是一次性抓取或类似的。
如果我理解正确,这应该会获取标签之间的所有数据:
Dim regex As New Text.RegularExpressions.Regex("<.*?>", RegexOptions.Singleline)
Dim result As String = regex.Replace(yourHtml, String.Empty)
Run Code Online (Sandbox Code Playgroud)
您可以使用它来获取 H2 标签和数据:
Dim regex As New Text.RegularExpressions.Regex("<\s*h2[^>]*>(.*?)<\s*/\s*h2>", RegexOptions.Singleline)
Dim results As New Text.StringBuilder
For Each m As Text.RegularExpressions.Match In regex.Matches(yourHtml)
results.Append(m.Value)
Next
Run Code Online (Sandbox Code Playgroud)