我需要从第三方获取一大块原始 HTML 代码,其中可能包含任意数量的标签/属性以及潜在的肮脏或有害代码,然后将其剥离并转换为干净、安全的 Markdown 代码。
如果您愿意的话,可以使用“Markdownifier”,就像heckyesmarkdown.com所做的那样,但来自我的服务器端 .Net (C#) 应用程序,而不是客户端。我很高兴使用第三方库(免费或付费)来执行此操作,但出于性能、安全性和可靠性原因,不使用第三方托管的 REST API 或类似库。
有许多可用于 .Net 的库,它们允许您将 Markdown 转换为 HTML,但是我需要执行相反的操作,并且似乎无法找到已经解决此问题的 .Net 工具(除非我有点昏暗并且看错地方了!)。
我在 GitHub 上找到了这个库:
https://github.com/baynezy/Html2Markdown
看起来很有希望解决你的问题!不过我自己还没有尝试过。
还有一个 Nuget 包:
Install-Package Html2Markdown
Run Code Online (Sandbox Code Playgroud)
用法如下(html变量是字符串):
var markdown = new Converter().Convert(html);
Run Code Online (Sandbox Code Playgroud)