标签: ocr

最好、最简单的 OCR 解决方案是什么?

我想以最少的麻烦扫描大量的文件。我想使用简单扫描将它们转换为图像,然后使用 OCR 将它们转换为文本。有没有一个很好的带有 GUI 的 OCR 应用程序,只需按一下按钮就可以给我很好的结果?

scanning software-recommendation ocr

85
推荐指数
6
解决办法
13万
查看次数

如何从图像中提取文本?

如何从图像中提取文本?

我不是在谈论扫描文件,而是花园里的各种图像,比如当你在课堂上拍摄黑板的高清照片时,它是很好的手写体;或者当您从食谱书中拍摄页面并想要文本格式的食谱时。

任何免费和开放的软件?

我尝试了 tesseract,结果很糟糕。

software-recommendation ocr

35
推荐指数
2
解决办法
4万
查看次数

将 OCR 信息添加到 PDF

我对文档进行了高质量的扫描;这种扫描是pdf格式。

如何将 ocr 信息添加到 pdf 中,使其变得可搜索?通过可搜索,我的意思是目标是在使用 evince 查看 pdf 时,CTRL-F 实际上允许我在 pdf 内容中进行搜索。

pdf scanning ocr

31
推荐指数
3
解决办法
2万
查看次数

如何使用 OCR 工具从屏幕区域即时提取文本?

在 Ubuntu 12.10 中,如果我输入

gnome-screenshot -a | tesseract output
Run Code Online (Sandbox Code Playgroud)

它返回:

** Message: Unable to use GNOME Shell's builtin screenshot interface, resorting to fallback X11.
Run Code Online (Sandbox Code Playgroud)

如何从屏幕中选择文本并将其转换为文本(剪贴板或文档)?

谢谢!

software-recommendation screenshot ocr 12.10

31
推荐指数
2
解决办法
2万
查看次数

如何在 16.04 上为 Tesseract 安装新的语言包

刚刚安装了 gscan2pdf v1.3.9 以及 Tesseract。至于后者,首先它出现在我的已安装软件列表的底部,但现在它似乎消失了,尽管仍然有效(我认为)。

无论如何,我正在尝试将扫描文档的 pdf 转换为可编辑文本,但该文档不是英文的,因此 gscan 将其弄得一团糟。

唯一的选择,我是说我去Tools > OCR > Language to recognizeEnglishequosd。关于如何安装特定语言包的任何想法?

我不是有经验的 Linux 用户,因此将不胜感激分步说明。

language-support ocr

30
推荐指数
1
解决办法
5万
查看次数

如何将pdf转换为文本可搜索的pdf?

我有许多 pdf 格式的扫描文档,我希望能够搜索它们。我怎样才能做到这一点?

本质上,我必须对 pdf 进行 OCR,然后将提取的文本混合回新的 pdf。我尝试了许多不同的解决方案(包括将 OCR 信息添加到 PDF 中找到的解决方案),但均未成功。

  1. pdfocr(这给了我这个问题:https : //github.com/gkovacs/pdfocr/issues/7
  2. pdfsandwich(软件中心说这是一个糟糕的包,我不应该安装它)
  3. OCRfeeder(在软件中心)可以很好地导出为 odt,但在导出为 pdf 时没有反应。
  4. Gscan2pdf导出全黑(但可搜索)图像,如本讨论中所述
  5. 我不认为 Pdfxchange 查看器可以处理超过 500 页的文件动态执行 ocr。

是否有我不知道的软件包?或执行此操作的脚本?

pdf software-recommendation ocr

27
推荐指数
3
解决办法
1万
查看次数

如何在扫描的 .jpeg 中编辑文本?

我需要将扫描图像上传为 PDF 文档。

扫描文档后,我有一个.jpeg小文本,我想在转换为 PDF 上传之前对其进行编辑。

我以前从未这样做过,所以我真的被困住了。我怎样才能做到这一点?

pdf scanning software-recommendation ocr

14
推荐指数
3
解决办法
6万
查看次数

使用 OCRFeeder 时如何指定 Tesseract 使用的语言

我正在使用OCRFeeder的 OCR 实用程序。OCRFeeder 正在使用tesseract引擎。我已经安装了 tesseract 所需的几个语言包。如何设置语言,以便 tesseract 使用正确的语言文件将扫描的文档转换为文本?

ocr

6
推荐指数
1
解决办法
1万
查看次数

文档管理私人用户

我正在寻找一个支持以下文件管理系统:

  1. 可以批量扫描文件
  2. 扫描文档的自动 OCR
  3. 我选择的本地高清/外部服务器上的数据存储
  4. 自动备份(没那么重要)
  5. 适当的全文搜索
  6. 文档版本控制
  7. (自动)文档分类或标记
  8. 平台无关
  9. 自由

您知道满足这些要求的文档管理系统吗?

document-management ocr

6
推荐指数
1
解决办法
336
查看次数

如何使用 hocr2pdf 生成多页三明治 pdf?

我使用tesseract从多页tif开始生成与hocr2pdf一起使用的特殊html。

我尝试使用 hoc2pdf 生成“三明治 pdf”(图像 + 隐藏文本层)。

Hocr2pdf 生成一页 pdf,所有页面都叠加在一起。

有没有办法解决这个问题或替代解决方案?

pdf ocr

6
推荐指数
1
解决办法
3133
查看次数

Abbyy 优秀的阅读器,如适用于 Ubuntu 13.04 的应用程序

我有很多图像,我想要做的是扫描这些图像并在以后可以编辑的 ms word 文件中获取输出。对于 Windows,我有 Abbyy 优秀的阅读器。但我不想回到 Windows。请告诉我是否有任何应用程序可以为我做同样的事情。请帮助我。

conversion files ocr

5
推荐指数
2
解决办法
7015
查看次数

如何使用通配符超正方体?

我想要 tesseract 转换文件夹中的所有文件。我不想以任何方式合并文件,因为我在使用 hocr2pdf 和 pdfbeads 等程序一次合并多个文件时遇到问题。

我运行 tesseract *.tif * hocr 并最终得到以下结果

read_params_file: parameter not found: II*

ocr

2
推荐指数
1
解决办法
6969
查看次数