sup*_*gob 4 java pdf text-extraction apache-poi
我需要从多个文件中提取原始文本,其中一些是 PDF,一些是 DOC 文件格式。
我必须使用 Apache POI 来执行此操作。现在,我找到了很多有关处理 Word 文件(提取和写入等)的文档,但我找不到任何有关从 PDF 中提取的文档。
我是否错误地相信 Apache POI 具有此功能?
如果是这样,有人可以推荐类似的允许从多种文件格式提取文本的Java程序吗?
如果没有,任何人都可以向我指出我应该查看的文档和/或类/方法来执行此操作吗?
预先感谢您的任何帮助。
是的,您错误地认为 POI 会做到这一点。Apache POI可与 Microsoft Office 文件格式配合使用,而 PDF 则不能。
您要么想直接使用Apache PDFBox,要么使用Apache Tika,它可以处理 Microsoft Office 和 PDF 文件格式(以及许多其他文件格式)。
| 归档时间: |
|
| 查看次数: |
7693 次 |
| 最近记录: |