标签: ocr

如何对 PDF 文件进行 OCR 并获取存储在 PDF 中的文本?

首先,如果之前有人问过这个问题,我深表歉意——我在现有的帖子中搜索了一段时间,但找不到支持。

我对 Fedora 对多页不可搜索 PDF 进行 OCR 并将此 PDF 转换为包含图像顶部文本层的新 PDF 文件的解决方案感兴趣。在 Mac OSX 或 Windows 上,我们可以使用 Adob​​e Acrobat,但在 Linux 上有没有解决方案,特别是在 Fedora 上?

似乎描述了一个解决方案 - 但不幸的是,我在检索精确图像时已经迷路了。

command-line ocr pdf

49
推荐指数
4
解决办法
4万
查看次数

如何在 Linux 中从命令行使用 OCR?

我有几千页的扫描书页。每个页面都单独保存为 JPG。文字清晰,但字体各不相同,页面确实包括图片和插图。

我需要创建出现在每个 JPG 文件中的所有单词的列表。是否有用于扫描列出出现的单词的图像的命令行工具?它不需要完美的扫描,只是一个估计。

command-line ocr

39
推荐指数
3
解决办法
3万
查看次数

是否有某种 PDF 到文本转换器?

我需要 PDF 文件到文本,以便我可以从命令行批量搜索它们。是否有一些适用于 Ubuntu、OBSD 或类似发行版的转换器?

也许相关的帖子,这里有 ubuntu 的 OCR 。

ocr search pdf text

28
推荐指数
3
解决办法
2万
查看次数

Linux 系统上的 OCR

我一直发现OCR 技术落后于开源系统。我也从Ocropus 项目开始就看过它。我尝试过我听说过的最好的可用于 Linux 的 OCR 引擎Tesseract,但发现它非常缺乏商业文档。还有其他更有前途的 OCR 实现吗?解读笔迹的更有希望的目标呢?在这个领域的 *nix 系统上有什么可能?

opensource-projects ocr documents

15
推荐指数
2
解决办法
6122
查看次数

Tesseract:CPU使用率高,速度慢,只有在并行运行多个进程时

问题

pytesseract.image_to_string()当我通过 supervisordd 运行脚本时花费了太多时间,但是当直接在 shell 中运行时几乎立即执行(在同一台服务器上并与主管脚本同时运行)。
除了花费太多时间之外,进程还显示出高 CPU 使用率。

通过采取时间pytesseract.image_to_string()时,通过Supervisord运行:30岁〜
采取的时间pytesseract.image_to_string()时,通过击运行:0.1S

只有在有很多进程pytesseract.image_to_string()、正在执行、通过 supervisord 运行(大约 22 个实例)时才会出现此问题。如果我减少实例的数量(大约 10 个),通过 supervisord 执行的脚本也能顺利运行。

系统信息

操作系统:Ubuntu 18.04.2 LTS(仿生)
Supervisord:版本 3.3.1
Tesseract:版本 4.0.0-beta.1
Python:版本 3.6
PyTesseract:版本 0.2.5

ulimit -a

core file size          (blocks, -c) 0
data seg size           (kbytes, -d) unlimited
scheduling priority             (-e) 0
file size               (blocks, -f) unlimited
pending signals                 (-i) 127357
max locked memory       (kbytes, -l) 16384
max memory size         (kbytes, -m) unlimited
open files …
Run Code Online (Sandbox Code Playgroud)

ocr tesseract

6
推荐指数
1
解决办法
7507
查看次数

如何查找包含任何文本的所有图像?

我有很多图片,我需要找到,其中哪些包含英文文本(删除它们)。是否可以自动完成?

ocr images

5
推荐指数
1
解决办法
1959
查看次数

如何光栅化 PDF 中的所有文本?

你知道当你有一个 pdf 文件时,它是一个文件的扫描件,它是一个非常大的文件,因为它只存储扫描文件的图片?

并且有 OCR 工具可以帮助您制作仅存储文本的适当文档?

好吧,我需要相反的!假设我生成了一个完美的 pdf 文档pdflatex,我需要将其转换为如此“巨大”的 pdf,它在打印在纸上时看起来完全相同(具有特定的 dpi 值),但只是原始图片。

我最初的想法是将 pdf 转换为一系列 JPG,然后再转换回 PDF,但也许有一些规范的方法?


如果您想知道我为什么要做这样的事情:我目前使用的是网络打印机,它不是由我维护的,并且会随机丢弃打印文件中的字符!因此,在有人弄清楚那里出了什么问题之前,我希望将此作为解决方法。

linux ocr pdf pdftk

5
推荐指数
1
解决办法
2746
查看次数

tesseract:是否可以更改 OCRed pdf 中的字体输出?

跟进如何对 pdf 文件进行 OCR 并获取存储在 pdf 中的文本?我已经成功制作了 OCRed pdf 页面。

然而,在 Evince 中,没有显示这些字母。我的意思是我看不到字符,但我可以选择它们,复制它们并将它们成功粘贴到其他地方。这似乎不是 Evince 的 bug:https ://bugzilla.redhat.com/show_bug.cgi ? id = 1364201

使用 pdfsandwich 启动 pdf 页面的 OCR 时,tesseract 会生成一个页面

包含一种没有任何可用字形的字体(他们将其命名为 GlyphLessFont)。它只有 .notdef 和 .null 替换(正方形)。如果字符没有字形,Evince 将使用 .notdef 字形。Okular 突出显示文本的原因是因为它在图像中这样做,而不是像 evince 那样作为常规文本。

pdftotext 识别字符。

现在,问题是:可以告诉 tesseract 使用不同的字体吗?

ocr fonts pdf evince tesseract

5
推荐指数
1
解决办法
1460
查看次数

查找没有文本的 PDF

我有很多文件夹,里面有很多 PDF,我想用光学字符识别那些没有文本层的文件夹。所以首先,我想找到他们。我想也许一个管道pdfgrep可以完成这项工作,但我迷路了。

如何找到没有文本的 PDF?

ocr find pdf

4
推荐指数
1
解决办法
76
查看次数