在C#中剥离HTML和CSS

elw*_*wis 4 html c# string

我正在我的一个解决方案中创建邮件,需要提供来自给定html页面的html和纯文本邮件.

但是,我没有找到任何真正的好方法来从客户可能提供的任何html模板中删除html,js和css.

有没有任何简单的解决方案,也许是一个处理所有这一切的组件,或者我需要用regexp开始拼图?甚至可以为所有可能的标签创建防弹regexp?

问候

par*_*cle 8

HtmlAgilityPack一个去吧.它具有从HTML文档中提取文本的方法.

你基本上只需要做以下事情:

  var doc = new HtmlDocument();
  doc.LoadHtml(htmlStr);
  var node = doc.DocumentNode;
  var textContent = node.InnerText;
Run Code Online (Sandbox Code Playgroud)