我想以最少的麻烦扫描大量的文件。我想使用简单扫描将它们转换为图像,然后使用 OCR 将它们转换为文本。有没有一个很好的带有 GUI 的 OCR 应用程序,只需按一下按钮就可以给我很好的结果?
如何从图像中提取文本?
我不是在谈论扫描文件,而是花园里的各种图像,比如当你在课堂上拍摄黑板的高清照片时,它是很好的手写体;或者当您从食谱书中拍摄页面并想要文本格式的食谱时。
任何免费和开放的软件?
我尝试了 tesseract,结果很糟糕。
我对文档进行了高质量的扫描;这种扫描是pdf格式。
如何将 ocr 信息添加到 pdf 中,使其变得可搜索?通过可搜索,我的意思是目标是在使用 evince 查看 pdf 时,CTRL-F 实际上允许我在 pdf 内容中进行搜索。
在 Ubuntu 12.10 中,如果我输入
gnome-screenshot -a | tesseract output
Run Code Online (Sandbox Code Playgroud)
它返回:
** Message: Unable to use GNOME Shell's builtin screenshot interface, resorting to fallback X11.
Run Code Online (Sandbox Code Playgroud)
如何从屏幕中选择文本并将其转换为文本(剪贴板或文档)?
谢谢!
刚刚安装了 gscan2pdf v1.3.9 以及 Tesseract。至于后者,首先它出现在我的已安装软件列表的底部,但现在它似乎消失了,尽管仍然有效(我认为)。
无论如何,我正在尝试将扫描文档的 pdf 转换为可编辑文本,但该文档不是英文的,因此 gscan 将其弄得一团糟。
唯一的选择,我是说我去Tools > OCR > Language to recognize的English,equ和osd。关于如何安装特定语言包的任何想法?
我不是有经验的 Linux 用户,因此将不胜感激分步说明。
我有许多 pdf 格式的扫描文档,我希望能够搜索它们。我怎样才能做到这一点?
本质上,我必须对 pdf 进行 OCR,然后将提取的文本混合回新的 pdf。我尝试了许多不同的解决方案(包括将 OCR 信息添加到 PDF 中找到的解决方案),但均未成功。
是否有我不知道的软件包?或执行此操作的脚本?
我需要将扫描图像上传为 PDF 文档。
扫描文档后,我有一个.jpeg小文本,我想在转换为 PDF 上传之前对其进行编辑。
我以前从未这样做过,所以我真的被困住了。我怎样才能做到这一点?
我正在使用OCRFeeder的 OCR 实用程序。OCRFeeder 正在使用tesseract引擎。我已经安装了 tesseract 所需的几个语言包。如何设置语言,以便 tesseract 使用正确的语言文件将扫描的文档转换为文本?
我正在寻找一个支持以下文件管理系统:
您知道满足这些要求的文档管理系统吗?
我使用tesseract从多页tif开始生成与hocr2pdf一起使用的特殊html。
我尝试使用 hoc2pdf 生成“三明治 pdf”(图像 + 隐藏文本层)。
Hocr2pdf 生成一页 pdf,所有页面都叠加在一起。
有没有办法解决这个问题或替代解决方案?
我有很多图像,我想要做的是扫描这些图像并在以后可以编辑的 ms word 文件中获取输出。对于 Windows,我有 Abbyy 优秀的阅读器。但我不想回到 Windows。请告诉我是否有任何应用程序可以为我做同样的事情。请帮助我。
我想要 tesseract 转换文件夹中的所有文件。我不想以任何方式合并文件,因为我在使用 hocr2pdf 和 pdfbeads 等程序一次合并多个文件时遇到问题。
我运行 tesseract *.tif * hocr 并最终得到以下结果
read_params_file: parameter not found: II*