使用OCR的PDF文本提取方法

Jon*_*Jon 5 java pdf text-parsing

是否有人试图使用OCR库和Java从PDF中提取文本?你发现什么是最可靠的文本提取库.我见过的大多数方法(tesseract,GOCR)都是需要编写一些JNI代码的C库.

我熟悉pdfbox,它现在是0.8.x版本的Apache孵化器项目,但它的文本提取并不总是准确的.我正在寻找一种更可靠的替代方法.

我还没有尝试过Asprise JavaPDF,在尝试这个过程中,但想了解更多有关OCR方法的信息(如果可能的话).

任何帮助,将不胜感激.

Sam*_*num 7

如果您有基于文本的PDF,我强烈建议您使用PDFTextStream.这不是免费的,但许可是合理的,而且比PDFBox要好得多.PDFBox在许多PDF文件上窒息,这些PDF文件是由较新的工具生成的,并且对于它可以处理的PDF不太一致.PDFTextStream处理我抛出的任何PDF,包括带有嵌入式PNG图像的PDF,PDFBox无法做到这一点.

如果你诅咒PDFTextStream人员添加OCR,他们可能会听.


Otá*_*cio 1

如果您想从基于文本的 PDF 中提取 OCR,您可能必须先将其转换为图像。