Iva*_* G. 23
public static string StripHTML(string htmlString)
{
string pattern = @"<(.|\n)*?>";
return Regex.Replace(htmlString, pattern, string.Empty);
}
Run Code Online (Sandbox Code Playgroud)
获取HTML字符串或文档,并使用HTML Agility Pack进行解析.这将为您提供一个与XmlDocument非常相似的HTMLDocument对象.
然后,您可以使用它的方法,例如SelectNodes访问您感兴趣的文档部分.
如果您选择使用其他方法,请注意使用正则表达式解析HTML(非常规语言)被广泛认为是一个坏主意.
无论采用何种方法,如果要保留一些标记,请使用白名单方法.这意味着删除所有未明确需要的内容.
为了保证没有 HTML 标签通过,请使用:HttpServerUtility.HtmlEncode(string);。
如果你想让一些人通过,你可以使用这种“白名单”的方法。
更新:该代码中发现了一些漏洞;正如Fog Creek 的一位开发人员告诉我们的那样。
(第二个链接包含代码)。
| 归档时间: |
|
| 查看次数: |
33315 次 |
| 最近记录: |