我有一堆来自扫描文档的PDF文件.这些文件包含图像和文本的混合.有些被扫描为没有OCR的图像,因此每个PDF页面都是一个大图像,即使整个页面完全是文本.其他人使用OCR进行扫描,并包含图像和可搜索的文本,其中包含文本.在许多情况下,甚至图像中的文字也可以搜索到.
我想使用OCR,使用Acrobat 8 Pro进行自动处理以识别所有扫描文档中的文本,但我不想重新OCR过去已经通过OCR过程的文件.有没有人知道是否有办法告诉哪些只包含图像,哪些已包含可搜索的文本?
我打算在C#或VB.NET中这样做,但我不认为能够分辨两种文件是依赖于语言的.
我正在寻找一个在Linux上运行的开源OCR库.我需要这个适用于PNG和PDF.大多数情况下,我想从java或ruby接口这个库.知道是否有可用的东西?
问候.
是否有人试图使用OCR库和Java从PDF中提取文本?你发现什么是最可靠的文本提取库.我见过的大多数方法(tesseract,GOCR)都是需要编写一些JNI代码的C库.
我熟悉pdfbox,它现在是0.8.x版本的Apache孵化器项目,但它的文本提取并不总是准确的.我正在寻找一种更可靠的替代方法.
我还没有尝试过Asprise JavaPDF,在尝试这个过程中,但想了解更多有关OCR方法的信息(如果可能的话).
任何帮助,将不胜感激.
如果我有 10,000 个 PDF,其中一些已经过 OCR,其中一些有 1 个页面已经过 OCR,但其余页面没有,我怎么能浏览所有的 PDF 而只有 OCR 还没有的页面完成了吗?