如何从ASP.NET中的字符串中剥离HTML标记？

虽然没有要求,但我认为很多读者也希望剥离HTM编码,比如`&quote;`.我把它与[`WebUtility.HtmlDecode`](http://stackoverflow.com/questions/122641/how-can-i-decode-html-characters-in-c)结合起来(这反过来又不会删除标签) ).删除标签后使用它,因为它可能会重写`>`和`<`.例如`WebUtility.HtmlDecode(Regex.Replace(myTextVariable,"<[^>]*(> | $)",string.Empty))` (48认同)
@YahooSerious这将允许XSS向量然而> 脚本< 警报( "XXS"); &GT;/script< 不会被正则表达式清理,而是由HtmlDecode转换为<script> alert("XXS"); </ script> (3认同)

Answer 2

Ser*_*pth 74

立即下载HTMLAgilityPack!;) 下载LInk

这允许您加载和解析HTML.然后,您可以导航DOM并提取所有属性的内部值.说真的,它最多会占用大约10行代码.它是最好的免费.net库之一.

这是一个示例:

            string htmlContents = new System.IO.StreamReader(resultsStream,Encoding.UTF8,true).ReadToEnd();

            HtmlAgilityPack.HtmlDocument doc = new HtmlAgilityPack.HtmlDocument();
            doc.LoadHtml(htmlContents);
            if (doc == null) return null;

            string output = "";
            foreach (var node in doc.DocumentNode.ChildNodes)
            {
                output += node.InnerText;
            }

Run Code Online (Sandbox Code Playgroud)

为什么`if(doc == null)`检查？这总是假的,不是这样吗？ (16认同)
您甚至可以查询每个`text（）`节点，修剪内容和字符串。IEnumerable <string> allText = doc.DocumentNode.SelectNodes（“ // text（）”）。Select（n => n.InnerText.Trim（））` (2认同)

Answer 3

use*_*144 64

Regex.Replace(htmlText, "<.*?>", string.Empty);

Run Code Online (Sandbox Code Playgroud)

有许多问题 - 不处理其中包含<或>的属性,并且对于跨越多行的标记不能很好,除非使用`RegexOptions.SingleLine`运行. (4认同)
不，使用“<[^>]*>”。 (2认同)

Answer 4

小智 11

protected string StripHtml(string Txt)
{
    return Regex.Replace(Txt, "<(.|\\n)*?>", string.Empty);
}    

Protected Function StripHtml(Txt as String) as String
    Return Regex.Replace(Txt, "<(.|\n)*?>", String.Empty)
End Function

Run Code Online (Sandbox Code Playgroud)

不适用于许多情况,包括非unix linebreaks. (2认同)

Answer 5

小智 6

我已经在asp.net论坛上发布了它,它似乎仍然是那里最简单的解决方案之一.我不保证它是最快或最有效的,但它非常可靠.在.NET中,您可以使用HTML Web Control对象本身.您真正需要做的就是将您的字符串插入到临时HTML对象(如DIV)中,然后使用内置的"InnerText"来获取标记中未包含的所有文本.请参阅下面的简单C#示例:


System.Web.UI.HtmlControls.HtmlGenericControl htmlDiv = new System.Web.UI.HtmlControls.HtmlGenericControl("div");
htmlDiv.InnerHtml = htmlString;
String plainText = htmlDiv.InnerText;

Run Code Online (Sandbox Code Playgroud)

Answer 6

And*_*nea 5

我在c#中编写了一个非常快速的方法,它击败了正则表达式.它托管在CodeProject上的一篇文章中.

它的优点是,在更好的性能中,能够替换命名和编号的HTML实体(那些像&amp;和&203;)和注释块替换等等.

请阅读CodeProject上的相关文章.

谢谢.

归档时间：	16 年，9 月前
查看次数：	128917 次
最近记录：	6 年，2 月前