C#删除HTML字符串中的空格

Fun*_*nky -6 c# string

是否可以删除C#中以下HTML字符串中的所有空格:

"
<html>

<body>

</body>

</html>
"
Run Code Online (Sandbox Code Playgroud)

谢谢

Col*_*ith 5

在处理HTML或任何标记时,通常最好通过真正理解该标记规则的解析器来运行它.

第一个好处是,它可以告诉您初始输入数据是否是垃圾开始.

如果解析器足够智能,它甚至可以自动纠正错误形成的标记,或者使用宽松的规则接受它.

然后,您可以修改已解析的内容....并让解析器写出更改...这样您就可以确保遵循标记规则并且输出正确.

对于一些简单的HTML标记场景或者标记形成如此糟糕,解析器只是直接在它上面,然后是的你可以恢复黑客输入字符串......用字符串替换等等......这一切都取决于你的需要你采取哪种方法.

以下是一些可以帮助您的工具:

HTML整洁

您可以使用HTML Tidy,只需指定一些关于如何整理HTML的选项/规则(例如删除多余的空格).

这是一个WIN32 DLL ...但它有C#Wrappers.

HtmlAgilityPack

如果您需要更好地理解结构并且可能自己进行整理/重组,则可以使用HtmlAgilityPack来解析HTML.