use*_*041 2 java pdf ocr itext pdfbox
假设我的用户去了他们办公室的扫描仪。扫描仪能够生成扫描文档的 PDF。这本质上就是我拥有的文件类型。
我想要做的是从这个 PDF 中提取文本。这不是“第一代”pdf,因为文本未嵌入到 pdf 中。文本嵌入到 PDF 的图像中。
PDFBox 的 iText 中是否有允许检索此数据的功能?如果可能的话,我试图避免对图像进行 OCR。我希望 IText 或 PDFBox 中有内置的东西可以做到这一点。
请注意,我并不是在谈论从 pdf 中提取“正常”文本,如下所述:How to get raw text from pdf file using java
归档时间: |
|
查看次数: |
7728 次 |
最近记录: |