相关疑难解决方法(0)

如何知道PDF是否仅包含图像还是已经过OCR扫描以进行搜索?

我有一堆来自扫描文档的PDF文件.这些文件包含图像和文本的混合.有些被扫描为没有OCR的图像,因此每个PDF页面都是一个大图像,即使整个页面完全是文本.其他人使用OCR进行扫描,并包含图像和可搜索的文本,其中包含文本.在许多情况下,甚至图像中的文字也可以搜索到.

我想使用OCR,使用Acrobat 8​​ Pro进行自动处理以识别所有扫描文档中的文本,但我不想重新OCR过去已经通过OCR过程的文件.有没有人知道是否有办法告诉哪些只包含图像,哪些已包含可搜索的文本?

我打算在C#或VB.NET中这样做,但我不认为能够分辨两种文件是依赖于语言的.

pdf ocr search acrobat

23
推荐指数
1
解决办法
4万
查看次数

开源OCR

我正在寻找一个在Linux上运行的开源OCR库.我需要这个适用于PNG和PDF.大多数情况下,我想从java或ruby接口这个库.知道是否有可用的东西?

问候.

ruby java linux pdf ocr

15
推荐指数
2
解决办法
2万
查看次数

使用OCR的PDF文本提取方法

是否有人试图使用OCR库和Java从PDF中提取文本?你发现什么是最可靠的文本提取库.我见过的大多数方法(tesseract,GOCR)都是需要编写一些JNI代码的C库.

我熟悉pdfbox,它现在是0.8.x版本的Apache孵化器项目,但它的文本提取并不总是准确的.我正在寻找一种更可靠的替代方法.

我还没有尝试过Asprise JavaPDF,在尝试这个过程中,但想了解更多有关OCR方法的信息(如果可能的话).

任何帮助,将不胜感激.

java pdf text-parsing

5
推荐指数
2
解决办法
1万
查看次数

尚未进行 OCR 的批量 OCR 处理 PDF

如果我有 10,000 个 PDF,其中一些已经过 OCR,其​​中一些有 1 个页面已经过 OCR,但其余页面没有,我怎么能浏览所有的 PDF 而只有 OCR 还没有的页面完成了吗?

pdf ocr

3
推荐指数
1
解决办法
3079
查看次数

标签 统计

pdf ×4

ocr ×3

java ×2

acrobat ×1

linux ×1

ruby ×1

search ×1

text-parsing ×1