我想知道如何通过Java将Word .doc/.docx文件转换为文本文件.我知道有一个选项,我可以通过Word本身做到这一点,但我希望能够做到这样的事情:
java DocConvert somedocfile.doc converted.txt
Run Code Online (Sandbox Code Playgroud)
谢谢.
如果您对处理Word文档文件的Java库感兴趣,您可能需要查看例如Apache POI.来自网站的报价:
我为什么要使用Apache POI?
Apache POI api的主要用途是用于文本提取应用程序,例如Web蜘蛛,索引构建器和内容管理系统.
PS:另一方面,如果您只是在寻找转换实用程序,Stack Overflow可能不是最合适的地方.
编辑:如果您不想使用现有的库但是自己完成所有艰苦的工作,您会很高兴听到Microsoft已发布所需的文件格式规范.(Microsoft Open Specification Promise列出了可用的规范.只需谷歌搜索您感兴趣的任何一个.在您的情况下,您需要例如OLE2复合文件格式,Word 97二进制文件格式和Open XML格式.)
| 归档时间: |
|
| 查看次数: |
14289 次 |
| 最近记录: |