如何使用 Apache POI 从 PDF 中提取原始文本?

sup*_*gob 4 java pdf text-extraction apache-poi

我需要从多个文件中提取原始文本,其中一些是 PDF,一些是 DOC 文件格式。

我必须使用 Apache POI 来执行此操作。现在,我找到了很多有关处理 Word 文件(提取和写入等)的文档,但我找不到任何有关从 PDF 中提取的文档。

我是否错误地相信 Apache POI 具有此功能?

如果是这样,有人可以推荐类似的允许从多种文件格式提取文本的Java程序吗?

如果没有,任何人都可以向我指出我应该查看的文档和/或类/方法来执行此操作吗?

预先感谢您的任何帮助。

Gag*_*arr 5

是的,您错误地认为 POI 会做到这一点。Apache POI可与 Microsoft Office 文件格式配合使用,而 PDF 则不能。

您要么想直接使用Apache PDFBox,要么使用Apache Tika,它可以处理 Microsoft Office 和 PDF 文件格式(以及许多其他文件格式)。