如何清理microsoft html doc?

nig*_*2k1 7 html document ms-word

我有从Microsoft Word生成的html格式的大文档.它太乱了,充满了臃肿的东西(比如unknow标签,unknow名称空间等等和其他臃肿的东西)

有没有办法将其转换为普通的HTML sytax?

Dav*_*d Z 6

试试HTML Tidy.我听说它在MS Word生成的HTML上运行得很好(至少在Word 2000中,但也可能在更新的版本上).