从 PDF 图像中提取文本

use*_*041 2 java pdf ocr itext pdfbox

假设我的用户去了他们办公室的扫描仪。扫描仪能够生成扫描文档的 PDF。这本质上就是我拥有的文件类型。

我想要做的是从这个 PDF 中提取文本。这不是“第一代”pdf,因为文本未嵌入到 pdf 中。文本嵌入到 PDF 的图像中。

PDFBox 的 iText 中是否有允许检索此数据的功能?如果可能的话,我试图避免对图像进行 OCR。我希望 IText 或 PDFBox 中有内置的东西可以做到这一点。

请注意,我并不是在谈论从 pdf 中提取“正常”文本,如下所述:How to get raw text from pdf file using java

cad*_*ams 5

好吧,环顾四周后,似乎没有一种方法可以专门使用 iText 或 PDFBox 来执行此操作,但看起来 PDFBox 确实有一个第三方软件插件可以完成您的需要。如果您对此感兴趣,链接位于此处此处,源自此处(来自@TilmanHausherr)。