将MS Word文本转换为普通有效的html/css

Isr*_*ael 5 html css ms-word converter

我正在寻找一种方法将几个段落和有序/无序列表从MS Word文件转换为HTML.

现在,问题是当将Word文件保存为"htm/html"类型的文件(我使用的是Word 2010)时,我会收到大量各种不需要的CSS指令,其中一些是MS发明的,有些是有效的. CSS,我不想在我的HTML代码中.此外,甚至更有问题的是,有序/无序列表甚至没有用LI项编码到OL和UL,而是用疯狂的Microsofty编码.

例如,段落(在Word中样式为"正常")将转换为:

<p class=MsoNormal>
 <span style='font-size:10.0pt;line-height:115%;mso-bidi-font-style:italic'>
  bla bla </span></p>
Run Code Online (Sandbox Code Playgroud)

而我只想明白:

<p><span>bla bla</span></p>  
Run Code Online (Sandbox Code Playgroud)

更可怕的是,带有一个列表项的简单的无法删除列表("项目符号列表")将转换为:

<p class=MsoListParagraph style='text-indent:-18.0pt;mso-list:l0 level1 lfo1'>
 <![if !supportLists]>
  <span style='font-family:Symbol;mso-fareast-font-family:Symbol;mso-bidi-font-family:Symbol'>
   <span style='mso-list:Ignore'>·
    <span style='font:7.0pt "Times New Roman"'>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;

    </span></span></span><![endif]>
 <span dir=LTR</span>Bla bla</p>
Run Code Online (Sandbox Code Playgroud)

虽然我希望得到:

<ul><li>Bla bla</li></ul>
Run Code Online (Sandbox Code Playgroud)

有任何想法吗?

非常感谢!

ps我正在使用Zend Studio(可能还有一个内置的eclipse/zend特定的转换器?)
psp导出为html的唯一MS Word选项我发现在Options => Advanced => General => Web Options .玩这些选项并没有解决上述任何问题.

Isr*_*ael 7

好的,找到了一个奇怪但有效的解决方案:

使用http://htmleditor.in/index.html和"从Word粘贴"选项,使用(具有讽刺性!)Internet Explorer(使用IE 9测试).

原因是,当我使用Chrome进行工作时,在按下"从Word粘贴"时,会出现一个html div-type弹出窗口,要求我允许直接访问我的剪贴板数据,并在使用ctrl-v粘贴文本时,如要求,结果是缺少子弹(项目符号项目被转换为段落).

相反,当我使用IE 9,而不是div类型弹出时,我得到一个IE系统类型弹出,并粘贴那里保持子弹......

具有讽刺意味的是,为了解决从微软开始的问题,我使用了另一种微软产品,这可能是因为它的html兼容性差,正是我想要的......哈哈.