Jon*_*Jon 5 java pdf text-parsing
是否有人试图使用OCR库和Java从PDF中提取文本?你发现什么是最可靠的文本提取库.我见过的大多数方法(tesseract,GOCR)都是需要编写一些JNI代码的C库.
我熟悉pdfbox,它现在是0.8.x版本的Apache孵化器项目,但它的文本提取并不总是准确的.我正在寻找一种更可靠的替代方法.
我还没有尝试过Asprise JavaPDF,在尝试这个过程中,但想了解更多有关OCR方法的信息(如果可能的话).
任何帮助,将不胜感激.
如果您有基于文本的PDF,我强烈建议您使用PDFTextStream.这不是免费的,但许可是合理的,而且比PDFBox要好得多.PDFBox在许多PDF文件上窒息,这些PDF文件是由较新的工具生成的,并且对于它可以处理的PDF不太一致.PDFTextStream处理我抛出的任何PDF,包括带有嵌入式PNG图像的PDF,PDFBox无法做到这一点.
如果你诅咒PDFTextStream人员添加OCR,他们可能会听.
| 归档时间: |
|
| 查看次数: |
12834 次 |
| 最近记录: |