标签: ocr

许多 PDF 文件的批处理 OCR(尚未 OCR)?

我使用 Google 桌面搜索(我使用的是 Vista),但我的存档文件夹中并未识别出所有的 PDF 文件。这是正常的,因为“包含扫描图像的 PDF 文件”未编入索引( http://desktop.google.com/support/bin/answer.py?hl=zh_CN&answer=90651 )

所以我想对我的许多尚未 OCR 的 PDF 文件进行 OCR。 我的目标:我给程序一个文件夹,它在子文件夹中单独搜索需要转换为 PDF-OCRed 文件的 PDF 文件。

注意:过去,如果 PDF 文件受密码保护,我会使用另一批(付费)工具删除密码:verypdf.com "pwdremover" http://www.verypdf.com/pwdremover/

任何(不是太贵)的想法?

我已经尝试过:当时 xp 上的 Finereader 6 pro,但没有包含批处理器... Paperfile paperfile.net 使用 Tesseract http://code.google.com/p/tesseract-ocr/。但是OCR只是PDF转文本,不是PDF转PDF!还有另一个项目http://code.google.com/p/ocropus/

提前致谢 ;)

pdf ocr desktop-search

10
推荐指数
2
解决办法
4万
查看次数

在 Greenshot 中启用 OCR

我跑Windows 10Microsoft Office professional Plus 2016我的电脑上。看起来我的系统中启用了 MS OCR 功能,因为OneNote它能够从图像中复制文本。

但是如何为 启用此功能Greenshot?目前我在截图后有以下菜单:

在此处输入图片说明

我没有 OCR。

并且设置中没有列出 OCR 插件:

在此处输入图片说明

但是 OCR 插件文件存在:

在此处输入图片说明

UPD

在安装期间启用了 OCR 选项。

如何Greenshot在我的系统中启用OCR 插件?

更新版本 2

我已经根据 MS 推荐方法 1 手动安装了 MODI:

Method 1: Download and install MDI to TIFF File Converter

To download and install MDI to TIFF File Converter, go to the following Microsoft website:
http://www.microsoft.com/en-us/download/details.aspx?id=30328
Run Code Online (Sandbox Code Playgroud)

之后我重新安装了 GS,但这没有帮助。菜单中仍然没有 OCR 在此处输入图片说明

scanning ocr greenshot windows-10

10
推荐指数
3
解决办法
1万
查看次数

带有 GUI 的免费 OCR 用于纠正错误?(适用于 Windows)

我使用过SimpleOCR,它有一个很好的 GUI 来纠正错误。不幸的是,它犯了很多错误!(并遭受其他错误和限制)

另一方面,Tesseract更准确,但根本没有 GUI。

我的问题是,是否有适用于 Windows 的免费 OCR 程序,它具有漂亮的 GUI低错误率?我希望它突出显示可疑单词(通过 OCR 不确定性,而不仅仅是拼写检查)并在我编辑类似于 SimpleOCR 所做的 OCR 单词时显示原始(位图)单词。

开源最好,其次是免费软件,然后是试用版/演示版/瘫痪软件。

显示用于纠正错误的 GUI 的 SimpleOCR 屏幕截图

windows gui ocr

9
推荐指数
1
解决办法
6286
查看次数

如何在 Microsoft Office Word 2010 中启动 OCR 扫描?

如何使用 Microsoft Office Word 2010(测试版)启动扫描和字符识别?

我似乎找不到将扫描仪中的文档直接扫描到 2010 Word 文档的选项。

我已经检查了 Office 2010 (Beta) 的安装设置并安装了OCR元素。

scanner ocr microsoft-office-2010

8
推荐指数
1
解决办法
17万
查看次数

能否让 Acrobat 11 使用多个 CPU 内核进行 OCR?

OCR 处理需要时间。使用多个 CPU 内核会加快处理速度。Acrobat 10不是多线程应用程序。Acrobat 11 怎么样?默认情况下,11 是否使用多个 CPU 内核进行 OCR(如果可用)?如果没有,是否有任何解决方法(例如编写脚本)来帮助 Acrobat 11 使用多个 CPU 内核执行 OCR?通过 Acrobat 的内置脚本语言或使用外部脚本启动和引导 Acrobat 的多个单线程实例并行执行部分处理作业。

注意:这个问题不是太本地化(不限于特定时间),因为 (1) Adob​​e 不会经常发布新的主要 Acrobat 版本(Acrobat 10 是两年前发布的)和 (2) Adob​​e Acrobat使用的应用程序。

ocr multi-threaded adobe-acrobat cpu-cores

8
推荐指数
2
解决办法
4685
查看次数

从 .PDF 扫描书籍中提取文本

我有一本 PDF 格式的扫描书,但质量很差:

在此处输入图片说明

(语言是罗马尼亚语,是一本医学生理学书籍,以防万一)

我想从书中提取文本(1500 页),但保持图像的原样。我真的不认为我有任何机会找到解决方案,所以我一定会买这本书。

在偶然的情况下,是否有任何功能强大的软件可以做我正在寻找的事情?它还必须承认罗马尼亚语。

pdf ocr

7
推荐指数
2
解决办法
4692
查看次数

OCR Tesseract,空页错误?

我从源代码编译它leptonica。这是一个具有透明背景的 png 图像,我对其进行了编辑,添加了蓝色,但仍然出现此错误:

Tesseract Open Source OCR Engine v3.02.02 with Leptonica
Empty page!!
Empty page!!
Run Code Online (Sandbox Code Playgroud)

这是图像输入:

在此处输入链接描述

ocr tesseract-ocr

7
推荐指数
2
解决办法
2万
查看次数

如何分析pdf文档中的空间使用情况?

我有这个 7mb pdf,是我用 65 张扫描的黑白图像制作的。OCR 后,文档变成 32mb。

我从未见过文字占据如此大的空间。(理论上 25mb 应该给我 2500 万个未压缩的字母)以纯文本格式保存我大约有 4KB/页 * 65 = +/- 280KB 的文本。

因为我制作了一个可搜索的图像,剩下的 32mb 用于定位?不太可能。

似乎有问题,我想看看 pdf 不同部分占用的空间,但我找不到任何似乎可以做到这一点的工具。

编辑:有关 pdf 的问题已解决。罪魁祸首是可搜索图像可搜索图像(精确)。它一定对一些图像进行了重新采样,使它们变得更大。仍然有兴趣回答这个问题。

pdf ocr adobe-acrobat

7
推荐指数
1
解决办法
4262
查看次数

带有灰色嘈杂背景的数字的 OCR

我试图在多张扫描的工作表上运行 OCR,其​​中的数字如下图(所有背景都相同,只有数字):

在此处输入图片说明

但是所有的试验都失败了!我尝试了离线 OCR:gocr、tesseract 和几个在线 OCR;但一切都完全失败了!

我该怎么办?

ocr noise-cancelling

7
推荐指数
1
解决办法
5053
查看次数

如何在使用 pdfsandwich 将 OCR 添加到 pdf 时保持 pdf 图像不变?

我正在尝试将 OCR 添加到 PDF,并使用pdfsandwich来执行此操作。问题是 pdfsandwich 在执行 OCR 时处理图像,这会改变文档的外观。

有什么办法可以保证PDF图像保持完全不变吗?如果 pdfsandwich 无法做到这一点,则可以使用替代应用程序来完成此操作。

之前的例子: 前

之后的示例: 后

通过 pdfsandwich 运行 pdf 后,您可以轻松看到质量的下降。

我查看了 pdfsandwich 文档,但找不到任何有关保持图像不变的信息。

pdf scanning ocr tesseract-ocr

7
推荐指数
1
解决办法
913
查看次数