标签: ocr

如何对 PDF 文件进行 OCR 并获取存储在 PDF 中的文本？

首先，如果之前有人问过这个问题，我深表歉意——我在现有的帖子中搜索了一段时间，但找不到支持。

我对 Fedora 对多页不可搜索 PDF 进行 OCR 并将此 PDF 转换为包含图像顶部文本层的新 PDF 文件的解决方案感兴趣。在 Mac OSX 或 Windows 上，我们可以使用 Adobe Acrobat，但在 Linux 上有没有解决方案，特别是在 Fedora 上？

这似乎描述了一个解决方案 - 但不幸的是，我在检索精确图像时已经迷路了。

command-line ocr pdf

49
推荐指数

4
解决办法

4万
查看次数

如何在 Linux 中从命令行使用 OCR？

我有几千页的扫描书页。每个页面都单独保存为 JPG。文字清晰，但字体各不相同，页面确实包括图片和插图。

我需要创建出现在每个 JPG 文件中的所有单词的列表。是否有用于扫描列出出现的单词的图像的命令行工具？它不需要完美的扫描，只是一个估计。

command-line ocr

39
推荐指数

3
解决办法

3万
查看次数

是否有某种 PDF 到文本转换器？

我需要 PDF 文件到文本，以便我可以从命令行批量搜索它们。是否有一些适用于 Ubuntu、OBSD 或类似发行版的转换器？

也许相关的帖子，这里有 ubuntu 的 OCR 。

ocr search pdf text

28
推荐指数

3
解决办法

2万
查看次数

Linux 系统上的 OCR

我一直发现OCR 技术落后于开源系统。我也从Ocropus 项目开始就看过它。我尝试过我听说过的最好的可用于 Linux 的 OCR 引擎Tesseract，但发现它非常缺乏商业文档。还有其他更有前途的 OCR 实现吗？解读笔迹的更有希望的目标呢？在这个领域的 *nix 系统上有什么可能？

opensource-projects ocr documents

15
推荐指数

2
解决办法

6122
查看次数

Tesseract：CPU使用率高，速度慢，只有在并行运行多个进程时

问题

pytesseract.image_to_string()当我通过 supervisordd 运行脚本时花费了太多时间，但是当直接在 shell 中运行时几乎立即执行（在同一台服务器上并与主管脚本同时运行）。
除了花费太多时间之外，进程还显示出高 CPU 使用率。

通过采取时间pytesseract.image_to_string()时，通过Supervisord运行：30岁〜
采取的时间pytesseract.image_to_string()时，通过击运行：0.1S

只有在有很多进程pytesseract.image_to_string()、正在执行、通过 supervisord 运行（大约 22 个实例）时才会出现此问题。如果我减少实例的数量（大约 10 个），通过 supervisord 执行的脚本也能顺利运行。

系统信息

操作系统：Ubuntu 18.04.2 LTS（仿生）
Supervisord：版本 3.3.1
Tesseract：版本 4.0.0-beta.1
Python：版本 3.6
PyTesseract：版本 0.2.5

ulimit -a

core file size          (blocks, -c) 0
data seg size           (kbytes, -d) unlimited
scheduling priority             (-e) 0
file size               (blocks, -f) unlimited
pending signals                 (-i) 127357
max locked memory       (kbytes, -l) 16384
max memory size         (kbytes, -m) unlimited
open files …

Run Code Online (Sandbox Code Playgroud)

6
推荐指数

1
解决办法

7507
查看次数

如何查找包含任何文本的所有图像？

我有很多图片，我需要找到，其中哪些包含英文文本（删除它们）。是否可以自动完成？

5
推荐指数

1
解决办法

1959
查看次数

如何光栅化 PDF 中的所有文本？

你知道当你有一个 pdf 文件时，它是一个文件的扫描件，它是一个非常大的文件，因为它只存储扫描文件的图片？

并且有 OCR 工具可以帮助您制作仅存储文本的适当文档？

好吧，我需要相反的！假设我生成了一个完美的 pdf 文档pdflatex，我需要将其转换为如此“巨大”的 pdf，它在打印在纸上时看起来完全相同（具有特定的 dpi 值），但只是原始图片。

我最初的想法是将 pdf 转换为一系列 JPG，然后再转换回 PDF，但也许有一些规范的方法？

如果您想知道我为什么要做这样的事情：我目前使用的是网络打印机，它不是由我维护的，并且会随机丢弃打印文件中的字符！因此，在有人弄清楚那里出了什么问题之前，我希望将此作为解决方法。

linux ocr pdf pdftk

5
推荐指数

1
解决办法

2746
查看次数

tesseract：是否可以更改 OCRed pdf 中的字体输出？

跟进如何对 pdf 文件进行 OCR 并获取存储在 pdf 中的文本？我已经成功制作了 OCRed pdf 页面。

然而，在 Evince 中，没有显示这些字母。我的意思是我看不到字符，但我可以选择它们，复制它们并将它们成功粘贴到其他地方。这似乎不是 Evince 的 bug：https ://bugzilla.redhat.com/show_bug.cgi ? id = 1364201

使用 pdfsandwich 启动 pdf 页面的 OCR 时，tesseract 会生成一个页面

包含一种没有任何可用字形的字体（他们将其命名为 GlyphLessFont）。它只有 .notdef 和 .null 替换（正方形）。如果字符没有字形，Evince 将使用 .notdef 字形。Okular 突出显示文本的原因是因为它在图像中这样做，而不是像 evince 那样作为常规文本。

pdftotext 识别字符。

现在，问题是：可以告诉 tesseract 使用不同的字体吗？

ocr fonts pdf evince tesseract

5
推荐指数

1
解决办法

1460
查看次数

查找没有文本的 PDF

我有很多文件夹，里面有很多 PDF，我想用光学字符识别那些没有文本层的文件夹。所以首先，我想找到他们。我想也许一个管道pdfgrep可以完成这项工作，但我迷路了。

如何找到没有文本的 PDF？

4
推荐指数

1
解决办法

76
查看次数

标签统计

ocr ×9

pdf ×5

command-line ×2

find ×1

opensource-projects ×1

text ×1