我如何使用正则表达式将HTML解析为纯文本

2 .net regex

我如何使用正则表达式来解析以下内容:

<b>HelloWorld</b>
<p>This is a test</p>
<a href="myUrl">Google</a>
Run Code Online (Sandbox Code Playgroud)

需要删除所有html标签,并从超链接标签中提取网址,结果应为:

HelloWorld
This is a test
myUrl

Tam*_*ege 8

我知道这不是你期望的答案,但你不应该尝试用正则表达式解析HTML.HTML是通过正则表达式解析复杂的方法,有各种各样的东西可能出错.编写一个可靠地解析HTML的正则表达式非常困难,我甚至不确定它是否可行.

使用像Beautiful SoupHTML Agility Pack for .NET 这样的东西.或者您可以使用解析器生成器创建自己的解析器.