如何使用POI读取粗体和斜体格式的Word文档

Sud*_*yak 5 doc bold hwpf apache-poi italic

我正在使用Apache POI。

我可以使用“ org.apache.poi.hwpf.extractor.WordExtractor”从文档文件中读取文本

甚至通过使用“ org.apache.poi.hwpf.usermodel.Table”获取表

但请提出建议,我该如何获取文本的粗体/斜体格式。

提前致谢。

Gag*_*arr 5

WordExtractor 只返回文本,没有别的。

获取 word 文档的文本+格式的最简单方法是切换到使用Apache Tika。Apache Tika 构建在 Apache POI(等等)之上,并提供纯文本提取和丰富的提取(带格式的 XHTML)。

或者,如果您想自己编写代码,我建议您查看Tika 的 WordExtractor 中的代码,它演示了如何使用 Apache POI 获取文本运行的格式信息。


归档时间:

查看次数:

3279 次

最近记录:

10 年,4 月 前