如何使用 Apache POI 从 PDF 中提取原始文本？

Question

我需要从多个文件中提取原始文本，其中一些是 PDF，一些是 DOC 文件格式。

我必须使用 Apache POI 来执行此操作。现在，我找到了很多有关处理 Word 文件（提取和写入等）的文档，但我找不到任何有关从 PDF 中提取的文档。

我是否错误地相信 Apache POI 具有此功能？

如果是这样，有人可以推荐类似的允许从多种文件格式提取文本的Java程序吗？

如果没有，任何人都可以向我指出我应该查看的文档和/或类/方法来执行此操作吗？

预先感谢您的任何帮助。

Answer 1

是的，您错误地认为 POI 会做到这一点。Apache POI可与 Microsoft Office 文件格式配合使用，而 PDF 则不能。

您要么想直接使用Apache PDFBox，要么使用Apache Tika，它可以处理 Microsoft Office 和 PDF 文件格式（以及许多其他文件格式）。