标签: ocr

Acrobat – 这是最直接的 OCR 批处理引擎。唯一的问题似乎是 1）它不会跳过已经被 OCR 处理过的文件 2）尝试向它扔一堆 PDF（一些旧的）并看着它崩溃。这是一个小马车。它会在遇到的每个错误时向您发出警告（尽管您可以告诉软件不要通知。但同样，它在某些类型的 PDF 上会死得很惨，因此您的里程可能会有所不同。
ABBYY FineReader (Batch/Scansnap)、Omnipage——这些一定是人类已知的一些最糟糕的编程软件。如果您能找到如何完全自动化（无提示）批量 OCR保存同名PDF，请在此处发帖。似乎我能找到的唯一解决方案在某处失败了——重命名、不完全自动化等。充其量，有一种方法可以做到，但是文档和编程太糟糕了，你永远不会发现。

ABBYY FineReader Engine、ABBYY Recognition Server - 这些确实是更多的企业解决方案，您可能最好让 acrobat 运行一个文件夹并尝试清除给您带来错误/崩溃程序的 pdf，而不是经历尝试的麻烦安装评估软件（假设您是一个简单的最终用户）。对于小用户来说似乎没有成本竞争力。

** Autobahn DX 工作站** 这个产品的成本太高了，你大概可以买6个acrobat。不是真正的最终用户解决方案。如果您是企业设置，这对您来说可能是值得的。

Linux

WatchOCR – 不再开发，基本上不可能在现代 Ubuntu 发行版上运行

pdfsandwich – 不再开发，基本上不可能在现代 Ubuntu 发行版上运行

** ABBY LINUX OCR ** - 这应该是可编写脚本的，并且似乎有一些不错的结果：

http://www.splitbrain.org/blog/2010-06/15-linux_ocr_software_comparison

但是，就像他们按页面收费的许多其他 ABBYY 产品一样，您最好尝试让 Acrobat Batch OCR …

windows linux pdf ocr adobe-acrobat

Joe*_*Joe

2017 03-20

22
推荐指数

2
解决办法

2万
查看次数

PDF 中的模糊文本

我有一个文本模糊的pdf。文本本身是可读的，但会造成很大的压力。
这是文本的一个例子。

有没有办法清除它？

pdf ocr

use*_*895

2020 12-28

22
推荐指数

3
解决办法

6580
查看次数

如何将扫描的图像作为 PDF 转换为可搜索的 PDF 文件？

我有一本扫描书的PDF。

我正在寻找一个免费软件，该软件将执行 OCR，然后提供一个选项以将其再次保存为 PDF 或文档。

有吗？

pdf software-rec ocr

作者

2011 08-16

19
推荐指数

2
解决办法

4万
查看次数

如何从 PDF 中删除 OCR？

我已经在谷歌上搜索了一段时间，但找不到我的问题的答案。

我最近使用 Adobe Acrobat 扫描的文档中有不需要的 OCR 层。它没有被正确 OCR，我想编辑一些信息，但 OCR 正在使想要的信息被删除。我将文件转换为 TIF，但注意到（非常）显着的质量损失。我听说打印到另一个 PDF 要么保留文本，要么降低图像质量。

pdf ocr tiff adobe-acrobat

San*_*noo

2021 04-08

17
推荐指数

2
解决办法

3万
查看次数

如何从图像中识别字体？

很多时候我遇到的位图只有文本段落，所以我一直在寻找一种方法来识别使用的字体、段落对齐方式、行距和颜色、粗体、斜体。

OCR 包允许我这样做吗？

如果没有，我还有什么其他选择？

fonts vector-graphics ocr bitmaps

Rob*_*cks

2013 12-29

15
推荐指数

2
解决办法

4万
查看次数

将大书转换为数字格式的实用 OCR 解决方案？

上周末我去了我祖父母家。我祖母拿出了这本巨大的（约 1400 页）书，讲述了她可以追溯到 1630 年左右的家族史。我是个巨大的书呆子，我认为将所有信息存储在数据库中并从网络上可用会很巧妙。我可以处理所有的网络编程和正则表达式等等，但我不知道将文本从书本传送到计算机的最佳方式。

我知道某种 OCR 是必要的，从我所做的小研究来看，我的选择似乎是：

用相机拍下每一页的照片，然后用OCR软件处理图片
用扫描仪扫描每一页，然后用OCR软件处理
使用某种手持设备，像这样。

有没有人对解决这个问题的最佳方法有任何想法？我不想毁掉这本书，因为据我所知，它无法替代。这可能是我唯一一次要扫描一本大书，所以我不认为我想在任何类型的设备上花费超过 250 美元。我不介意这里的一些手动工作（我意识到这很可能需要几个月的时间），但我想找到最有效的方法。

关于这本书的注意事项：它只有大约 20 年的历史，所以它的状态很好。它是单色的，页面还没有开始变黄。由于它太大了，我担心当文本靠近绑定时可能会出现阴影。

ocr

作者

2009 09-15

13
推荐指数

1
解决办法

1万
查看次数

从印象笔记中提取 OCR 文本

Evernote会对您保存的图像进行 OCR。有没有办法在 Evernote 中获得与图像等效的全文，或者 OCR 仅用于搜索？

ocr evernote

Lei*_*fel

2011 05-29

13
推荐指数

3
解决办法

2万
查看次数

通过 Ghostscript 运行后，PDF 在所有单词中都有一个额外的空白

此 PDF 由 Abbyy Finereader 10 制作：

http://ebooks.zeitr.org/from_abbyy.pdf

您可以复制并粘贴第一句话并获得此（非常好的）文本结果：

Der »Bund Deutscher Gymnastik-Schulleiter« wurde am 20. November 1955 anläßlich einer Zusammenkunft der Leiterinnen und Leiter der privaten deutschen Gymnastik-Ausbildungsstätten gegründet。

在使用 Ghostscript 9.02（64 位 Windows）进行一些处理后，我得到了这个文件：

http://ebooks.zeitr.org/after_ghostscript.pdf

现在第一句话看起来很奇怪 - 每个单词的最后一个字符之前都有一个额外的空格。

Der »Bun d Deutscher r GymnastikSchulleiter « wurd eam 20 . 195 年 11 月 5 月

这有一个主要的负面影响，即您无法在 Acrobat Reader 中搜索整个单词。我可以使用以下为 Ghostscript 设置的最小参数来重现效果：

-sDEVICE=pdfwrite ^ -dBATCH ^ -dNOPAUSE ^ -sstdout="myStdOut" ^ -sOutputFile="myDestFile.pdf" ^ mySourceFile.pdf
Run Code Online (Sandbox Code Playgroud)
有任何想法吗？

pdf ocr ghostscript

作者

2011 06-07

10
推荐指数

2
解决办法

5741
查看次数

标签统计

ocr ×10

pdf ×7

adobe-acrobat ×3

linux ×2

adobe-reader ×1

bitmaps ×1

evernote ×1

extract ×1

fonts ×1

ghostscript ×1

software-rec ×1

tiff ×1

ubuntu ×1

vector-graphics ×1

windows ×1

批量 OCR PDF

视窗

Linux

标签 统计

标签统计