如何将.doc或.docx文件转换为.txt文件

Cod*_*ict 3 java ms-word

我想知道如何通过Java将Word .doc/.docx文件转换为文本文件.我知道有一个选项,我可以通过Word本身做到这一点,但我希望能够做到这样的事情:

java DocConvert somedocfile.doc converted.txt
Run Code Online (Sandbox Code Playgroud)

谢谢.

sta*_*ica 7

如果您对处理Word文档文件的Java库感兴趣,您可能需要查看例如Apache POI.来自网站的报价:

我为什么要使用Apache POI?

Apache POI api的主要用途是用于文本提取应用程序,例如Web蜘蛛,索引构建器和内容管理系统.


PS:另一方面,如果您只是在寻找转换实用程序,Stack Overflow可能不是最合适的地方.


编辑:如果您不想使用现有的库但是自己完成所有艰苦的工作,您会很高兴听到Microsoft已发布所需的文件格式规范.(Microsoft Open Specification Promise列出了可用的规范.只需谷歌搜索您感兴趣的任何一个.在您的情况下,您需要例如OLE2复合文件格式,Word 97二进制文件格式和Open XML格式.)