以编程方式清理Word生成的HTML,同时保留样式?

GeR*_*ReV 9 .net html xhtml ms-word

在我现在的公司,我们已经有十年了......我们称之为" Hello World "应用程序.

虽然想要创建它的新版本,但我们还希望保留较旧的条目.这些较旧的条目包含可怕的Word生成的HTML,以前从未过滤过.

如果我们迁移到更新的系统,我宁愿清理和过滤HTML,以使网站尽可能符合HTML标准.
然而,只是清理像他在博客中描述的Jeff Atwood那样的代码,或者我所知道的任何其他方式,也会破坏风格和格式.

现在,这可能会导致我们的用户反抗,然后所有地狱都会破裂 - 这不是一个好主意.

所以问题是:可以在保留基本格式的同时清理Word的HTML吗?(例如:着色,斜体,粗体等)

优选地,使用公共可用的代码或库,例如HTML Tidy,C#中的示例将非常受欢迎.

Tod*_*ain 3

有几个可用的选项,但您当然可以使用 Jeff Atwood 的作为编写您自己的代码的良好起点。如果是这样,您可能会获得对结果的微调控制 - 但请注意,结果永远不会 100% 准确,因为所有额外的 ms 代码实际上都在那里,以确保尽可能多地保真原始文档(至少在 IE 中用于往返目的)。但大多数代码确实保留了大部分格式。

以下是一些可能有用的代码库:

如果您只需要批处理(并且不关心拥有代码库),Office 2000 HTML Filter 2.0可能是您最好的选择 - 请在TechRepublic上阅读有关它的更多信息。