有没有简单的方法来删除所有HTML标签或从字符串相关的任何HTML?
例如:
string title = "<b> Hulk Hogan's Celebrity Championship Wrestling <font color=\"#228b22\">[Proj # 206010]</font></b> (Reality Series, )"
Run Code Online (Sandbox Code Playgroud)
以上应该是:
"绿巨人霍根的名人冠军摔跤[Proj#206010](现实系列)"
Bid*_*dou 224
您可以使用这样的简单正则表达式:
public static string StripHTML(string input)
{
return Regex.Replace(input, "<.*?>", String.Empty);
}
Run Code Online (Sandbox Code Playgroud)
请注意,此解决方案有其自身的缺陷.有关更多信息,请参阅删除String中的HTML标记(尤其是@mehaase的注释)
另一种解决方案是使用HTML Agility Pack.
您可以在此处找到使用该库的示例:HTML敏捷包 - 删除不需要的标记而不删除内容?
ssi*_*777 46
您可以使用Html Agility包解析字符串并获取InnerText.
HtmlDocument htmlDoc = new HtmlDocument();
htmlDoc.LoadHtml(@"<b> Hulk Hogan's Celebrity Championship Wrestling <font color=\"#228b22\">[Proj # 206010]</font></b> (Reality Series, )");
string result = htmlDoc.DocumentNode.InnerText;
Run Code Online (Sandbox Code Playgroud)
您可以在字符串上使用以下代码,您将获得不带 html 部分的完整字符串。
string title = "<b> Hulk Hogan's Celebrity Championship Wrestling <font color=\"#228b22\">[Proj # 206010]</font></b> (Reality Series, )".Replace(" ",string.Empty);
string s = Regex.Replace(title, "<.*?>", String.Empty);
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
168373 次 |
| 最近记录: |