如何使用Apache POI读取Java中的.DOC文件以将图像与文本分开?

5 java ms-word apache-poi

我需要从Java中读取包含文本和图像的Word .doc文件.我需要识别图像和文本并将它们分成2个文件.

我最近听说过"Apache POI".如何使用Apache POI读取Word .doc文件?

小智 13

apache网站上的示例和示例代码非常好.我建议你从那里开始.

http://poi.apache.org/hwpf/quick-guide.html

要获取特定的文本位,首先要创建一个org.apache.poi.hwpf.HWPFDocument.使用getRange()获取范围,然后从中获取段落.然后,您可以获得文本和其他属性.

这里是提取图像的示例. 这里是撰写本文时的最新修订版.

当然还有Javadocs

请注意,根据POI网站,

HWPF仍处于早期开发阶段.