在Java中以编程方式将Word doc转换为HTML

kay*_*aks 21 html java ms-word

我需要将Word文档转换为Java中的HTML文件.该函数将输入一个word文档,输出将是基于word文档具有的页数的html文件,即如果word文档有3个页面,则将生成具有所需分页符的3个html文件.

我搜索了开源/非商业API,可以将doc转换为html,但没有结果.任何做过这种工作的人都请帮忙.

谢谢

Fis*_*her 6

我推荐使用JODConverter,它利用OpenOffice.org,它可以为今天提供的OpenDocument和Microsoft Office格式提供最好的导入/导出过滤器.

JODConverter有很多文档,脚本和教程可以帮助你.


Cha*_*ert 3

我们使用 tm-extractors ( http://mvnrepository.com/artifact/org.textmining/tm-extractors ),并回退到商业 Aspose ( http://www.aspose.com/ )。两者都有本机 Java API。