是否可以使用Apache POI解析MS Word并将其转换为XML?

use*_*434 6 java ms-word apache-poi

是否可以使用Apache POI将MS Word转换为XML文件?

如果是的话,你能指点我做任何教程吗?

Ale*_*noy 5

HWPF子项目的目的正是:处理Word文件.

http://poi.apache.org/hwpf/index.html

然后,要将数据转换为XML,您必须通过以下方式构建XML:StAX,JDOM,XStream ......

Apache提供快速指南:

http://poi.apache.org/hwpf/quick-guide.html

我也发现:

http://sanjaal.com/java/tag/simple-java-tutorial-to-read-microsoft-document-in-java/

如果要处理docx文件,可能需要查看OpenXML4J子项目:

http://poi.apache.org/oxml4j/index.html


Gag*_*arr 5

我想说您有两个选择,都由Apache POI提供支持

一种是使用Apache Tika。Tika是文本和元数据提取工具包,通过对POI进行适当的调用,能够从Word文档中提取相当丰富的文本。结果是Tika将为您的Word文档的内容提供XHTML样式的XML。

另一个选择是使用最近添加到POI的类WordToHtmlConverter。这会将您的Word文档转换为HTML,并且通常会比Tika保留更多的结构和格式。

根据您希望使用的XML类型,其中一种应该是您的最佳选择。我建议您同时对某些示例文件进行尝试,并查看哪一个最适合您的问题域和需求。