以编程方式清理Word生成的HTML,同时保留样式？

Question

以编程方式清理Word生成的HTML,同时保留样式？

GeR*_*ReV 9 .net html xhtml ms-word

在我现在的公司,我们已经有十年了......我们称之为" Hello World "应用程序.

虽然想要创建它的新版本,但我们还希望保留较旧的条目.这些较旧的条目包含可怕的Word生成的HTML,以前从未过滤过.

如果我们迁移到更新的系统,我宁愿清理和过滤HTML,以使网站尽可能符合HTML标准.
然而,只是清理像他在博客中描述的Jeff Atwood那样的代码,或者我所知道的任何其他方式,也会破坏风格和格式.

现在,这可能会导致我们的用户反抗,然后所有地狱都会破裂 - 这不是一个好主意.

所以问题是:可以在保留基本格式的同时清理Word的HTML吗？(例如:着色,斜体,粗体等)

优选地,使用公共可用的代码或库,例如HTML Tidy,C#中的示例将非常受欢迎.

Answer 1

Tod*_*ain 3

有几个可用的选项，但您当然可以使用 Jeff Atwood 的作为编写您自己的代码的良好起点。如果是这样，您可能会获得对结果的微调控制 - 但请注意，结果永远不会 100% 准确，因为所有额外的 ms 代码实际上都在那里，以确保尽可能多地保真原始文档（至少在 IE 中用于往返目的）。但大多数代码确实保留了大部分格式。

以下是一些可能有用的代码库：

Microsoft Word 2000 HTML Mess Cleaner（注：这个出售源代码）
MS Word HTML 清理工具（注意：旨在与 FCKEditor 一起使用，但源代码可用）

如果您只需要批处理（并且不关心拥有代码库），Office 2000 HTML Filter 2.0可能是您最好的选择 - 请在TechRepublic上阅读有关它的更多信息。

归档时间：	15 年，6 月前
查看次数：	4476 次
最近记录：	10 年，4 月前