从 PDF 图像中提取文本

Question

假设我的用户去了他们办公室的扫描仪。扫描仪能够生成扫描文档的 PDF。这本质上就是我拥有的文件类型。

我想要做的是从这个 PDF 中提取文本。这不是“第一代”pdf，因为文本未嵌入到 pdf 中。文本嵌入到 PDF 的图像中。

PDFBox 的 iText 中是否有允许检索此数据的功能？如果可能的话，我试图避免对图像进行 OCR。我希望 IText 或 PDFBox 中有内置的东西可以做到这一点。

请注意，我并不是在谈论从 pdf 中提取“正常”文本，如下所述：How to get raw text from pdf file using java

Answer 1

好吧，环顾四周后，似乎没有一种方法可以专门使用 iText 或 PDFBox 来执行此操作，但看起来 PDFBox 确实有一个第三方软件插件可以完成您的需要。如果您对此感兴趣，链接位于此处和此处，源自此处（来自@TilmanHausherr）。