Sud*_*yak 5 doc bold hwpf apache-poi italic
我正在使用Apache POI。
我可以使用“ org.apache.poi.hwpf.extractor.WordExtractor”从文档文件中读取文本
甚至通过使用“ org.apache.poi.hwpf.usermodel.Table”获取表
但请提出建议,我该如何获取文本的粗体/斜体格式。
提前致谢。
WordExtractor 只返回文本,没有别的。
获取 word 文档的文本+格式的最简单方法是切换到使用Apache Tika。Apache Tika 构建在 Apache POI(等等)之上,并提供纯文本提取和丰富的提取(带格式的 XHTML)。
或者,如果您想自己编写代码,我建议您查看Tika 的 WordExtractor 中的代码,它演示了如何使用 Apache POI 获取文本运行的格式信息。
| 归档时间: |
|
| 查看次数: |
3279 次 |
| 最近记录: |