标签: ocr

如何使用 OCR 从 Linux 上的 PDF 中提取文本?

如何从未使用索引构建的 PDF 中提取文本?都是文本,但我无法搜索或选择任何内容。我正在运行 Kubuntu,而 Okular 没有此功能。

linux pdf ocr extract ubuntu

46
推荐指数
4
解决办法
6万
查看次数

如何创建带有扫描页面但可选择文本的 PDF?

今天,我从我们的供应商那里收到了一份 PDF,其中包含几页带有签名等的打印和扫描页面。我在 Acrobat Reader DC 中打开了它。但令我惊讶的是,可以从明显扫描的图像中选择文本并将其复制为文本。看截图:

使用可选文本扫描的 PDF

这背后显然有一些 OCR,因为复制的文本包含错误。但这怎么可能呢?我以前从未见过这个,这怎么可能创建?

pdf adobe-reader ocr adobe-acrobat

33
推荐指数
2
解决办法
9555
查看次数

批量 OCR 许多 PDF

这已经在一年前在这里讨论过:

许多 PDF 文件的批处理 OCR(尚未 OCR)?

有没有办法批量处理尚未经过 OCR 处理的 OCR PDF?我认为,这是处理两个问题的当前状态:

批量 OCR PDF

视窗

  • Acrobat – 这是最直接的 OCR 批处理引擎。唯一的问题似乎是 1)它不会跳过已经被 OCR 处理过的文件 2)尝试向它扔一堆 PDF(一些旧的)并看着它崩溃。这是一个小马车。它会在遇到的每个错误时向您发出警告(尽管您可以告诉软件不要通知。但同样,它在某些类型的 PDF 上会死得很惨,因此您的里程可能会有所不同。

  • ABBYY FineReader (Batch/Scansnap)、Omnipage——这些一定是人类已知的一些最糟糕的编程软件。如果您能找到如何完全自动化(无提示)批量 OCR保存同名PDF,请在此处发帖。似乎我能找到的唯一解决方案在某处失败了——重命名、不完全自动化等。充其量,有一种方法可以做到,但是文档和编程太糟糕了,你永远不会发现。

  • ABBYY FineReader EngineABBYY Recognition Server - 这些确实是更多的企业解决方案,您可能最好让 acrobat 运行一个文件夹并尝试清除给您带来错误/崩溃程序的 pdf,而不是经历尝试的麻烦安装评估软件(假设您是一个简单的最终用户)。对于小用户来说似乎没有成本竞争力。

  • ** Autobahn DX 工作站** 这个产品的成本太高了,你大概可以买6个acrobat。不是真正的最终用户解决方案。如果您是企业设置,这对您来说可能是值得的。

Linux

  • WatchOCR – 不再开发,基本上不可能在现代 Ubuntu 发行版上运行
  • pdfsandwich – 不再开发,基本上不可能在现代 Ubuntu 发行版上运行
  • ** ABBY LINUX OCR ** - 这应该是可编写脚本的,并且似乎有一些不错的结果:

http://www.splitbrain.org/blog/2010-06/15-linux_ocr_software_comparison

但是,就像他们按页面收费的许多其他 ABBYY 产品一样,您最好尝试让 Acrobat Batch OCR …

windows linux pdf ocr adobe-acrobat

22
推荐指数
2
解决办法
2万
查看次数

PDF 中的模糊文本

我有一个文本模糊的pdf。文本本身是可读的,但会造成很大的压力。
这是文本的一个例子。

这个

有没有办法清除它?

pdf ocr

22
推荐指数
3
解决办法
6580
查看次数

如何将扫描的图像作为 PDF 转换为可搜索的 PDF 文件?

我有一本扫描书的PDF。

我正在寻找一个免费软件,该软件将执行 OCR,然后提供一个选项以将其再次保存为 PDF 或文档。

有吗?

pdf software-rec ocr

19
推荐指数
2
解决办法
4万
查看次数

如何从 PDF 中删除 OCR?

我已经在谷歌上搜索了一段时间,但找不到我的问题的答案。

我最近使用 Adob​​e Acrobat 扫描的文档中有不需要的 OCR 层。它没有被正确 OCR,我想编辑一些信息,但 OCR 正在使想要的信息被删除。我将文件转换为 TIF,但注意到(非常)显着的质量损失。我听说打印到另一个 PDF 要么保留文本,要么降低图像质量。

pdf ocr tiff adobe-acrobat

17
推荐指数
2
解决办法
3万
查看次数

如何从图像中识别字体?

很多时候我遇到的位图只有文本段落,所以我一直在寻找一种方法来识别使用的字体、段落对齐方式、行距和颜色、粗体、斜体。

OCR 包允许我这样做吗?

如果没有,我还有什么其他选择?

fonts vector-graphics ocr bitmaps

15
推荐指数
2
解决办法
4万
查看次数

将大书转换为数字格式的实用 OCR 解决方案?

上周末我去了我祖父母家。我祖母拿出了这本巨大的(约 1400 页)书,讲述了她可以追溯到 1630 年左右的家族史。我是个巨大的书呆子,我认为将所有信息存储在数据库中并从网络上可用会很巧妙。我可以处理所有的网络编程和正则表达式等等,但我不知道将文本从书本传送到计算机的最佳方式。

我知道某种 OCR 是必要的,从我所做的小研究来看,我的选择似乎是:

  1. 用相机拍下每一页的照片,然后用OCR软件处理图片
  2. 用扫描仪扫描每一页,然后用OCR软件处理
  3. 使用某种手持设备,像这样

有没有人对解决这个问题的最佳方法有任何想法?我不想毁掉这本书,因为据我所知,它无法替代。这可能是我唯一一次要扫描一本大书,所以我不认为我想在任何类型的设备上花费超过 250 美元。我不介意这里的一些手动工作(我意识到这很可能需要几个月的时间),但我想找到最有效的方法。

关于这本书的注意事项:它只有大约 20 年的历史,所以它的状态很好。它是单色的,页面还没有开始变黄。由于它太大了,我担心当文本靠近绑定时可能会出现阴影。

ocr

13
推荐指数
1
解决办法
1万
查看次数

从印象笔记中提取 OCR 文本

Evernote会对您保存的图像进行 OCR。有没有办法在 Evernote 中获得与图像等效的全文,或者 OCR 仅用于搜索?

ocr evernote

13
推荐指数
3
解决办法
2万
查看次数

通过 Ghostscript 运行后,PDF 在所有单词中都有一个额外的空白

此 PDF 由 Abbyy Finereader 10 制作:

http://ebooks.zeitr.org/from_abbyy.pdf

您可以复制并粘贴第一句话并获得此(非常好的)文本结果:

Der »Bund Deutscher Gymnastik-Schulleiter« wurde am 20. November 1955 anläßlich einer Zusammenkunft der Leiterinnen und Leiter der privaten deutschen Gymnastik-Ausbildungsstätten gegründet。

在使用 Ghostscript 9.02(64 位 Windows)进行一些处理后,我得到了这个文件:

http://ebooks.zeitr.org/after_ghostscript.pdf

现在第一句话看起来很奇怪 - 每个单词的最后一个字符之前都有一个额外的空格。

Der »Bun d Deutscher r GymnastikSchulleiter « wurd eam 20 . 195 年 11 月 5 月

这有一个主要的负面影响,即您无法在 Acrobat Reader 中搜索整个单词。我可以使用以下为 Ghostscript 设置的最小参数来重现效果:

-sDEVICE=pdfwrite ^
-dBATCH ^
-dNOPAUSE ^
-sstdout="myStdOut" ^
-sOutputFile="myDestFile.pdf" ^
 mySourceFile.pdf
Run Code Online (Sandbox Code Playgroud)

有任何想法吗?

pdf ocr ghostscript

10
推荐指数
2
解决办法
5741
查看次数