标签: ocr

问题是Tesseract的输出文件比较大，想OCRing后压缩。但是，当我使用 Ghostscript 压缩文件时，他把嵌入的 OCR 文本搞砸了。同样，如果我使用 ImageMagick，嵌入的文本将被删除。有没有解决的办法？从理论上讲，我可以在 OCR 之前进行压缩，但这会使 OCR 准确度变差。

一般来说，我的目标是在我的输出 PDF 文件中包含高质量的 OCR 嵌入文本，并高度压缩嵌入的图像，以便文件不占用几乎相同的空间。我发现 Adobe Acrobat Pro 的“另存为其他 > 缩小尺寸的 PDF”功能可以高度压缩图像，但会搞砸任何 OCR 文本。无论文件是在 Acrobat 中进行 OCR 处理，还是使用像 Tesseract 这样的工具，都是如此。

这是我当前的工作流程，使用示例 pdf。

将 PDF 拆分为 TIFF 文件

pdftk infile.pdf burst output "temp/page_%03d.pdf"
dpi=130 #this is the dpi of the particular file
parallel convert -verbose -density $dpi "{}" -depth 8 -background white -compress zip "{}.tiff" ::: temp/*.pdf

Run Code Online (Sandbox Code Playgroud)

在每个 TIFF …

compression pdf ocr adobe-acrobat tesseract-ocr

Jas*_*son

lucky-day

5
推荐指数

0
解决办法

1546
查看次数

了解 Adobe Acrobat 中的 OCR 选项：“可搜索图像”、“可搜索图像（精确）”和“可编辑文本和图像”

在 Adobe Acrobat 中（如果重要的话，我使用的是 Pro DC），OCR 有三个选项：

“可搜索图像”。
“可搜索图像（精确）”。
“可编辑的文本和图像”。

这三个选项有什么区别？

特别是，什么决定了输出文件的大小？现在我一直在运行第一个和第三个选项，似乎有时一个更大，有时另一个更大（差异可能很大）。

OCR 处理的质量、文件大小和速度之间有什么（如果有）权衡？

ocr adobe-acrobat

作者

lucky-day

5
推荐指数

1
解决办法

1万
查看次数

图像到文本转换器

我需要一个可以将扫描文本转换为可编辑文本的软件。我会更喜欢免费软件？

ocr images

Mr-*_*ght

2010 01-03

4
推荐指数

1
解决办法

1401
查看次数

一次处理整个 pdf 文件的在线 OCR 网站？

我正在寻找一个在线 OCR 网站，用于一次性处理多页 pdf 文件。免费的最好。

我知道http://www.newocr.com/。如果我是正确的，它一次只能对一页进行 OCR，方法是手动单击“预览”，然后单击每一页的“OCR”。每个页面经过OCR后，我也必须手动复制文本结果。

如果我的pdf文件有30~页，每页重复上面的过程会很繁琐。不知道有没有别的网站可以OCR整个pdf文件，不要求我手动操作？

谢谢！

ocr

Tim*_*Tim

lucky-day

4
推荐指数

1
解决办法

2万
查看次数

将pdf文本层复制到另一个pdf

假设您有 2 个“已扫描”的 pdf 文件。

大，但没有文字层。
较小（具有较低质量的图像），但具有正确的文本层。

两个文件都包含相同的图像，只是压缩方式不同。

目标是将相同的文本层嵌入到第一个 pdf 中。

“仅 OCR 1st 文件”不是解决方案。我知道 Acrobat（和其他一些工具）能够在不改变图像层的情况下进行 OCR，但我对它们的 OCR 质量不满意。

所以，我看到了两种可能的方式：

以某种方式导出导入文本层
以某种方式替换图像层中的图像。

关于第一种方式，我什么也没找到。关于第二种方式，我找到了两个工具，它们非常接近hocr2pdf和pdf2text，但据我所知，它们仍然不够。:(

PS：使用示例：

我刚刚发现了另一个示例，其中此类操作以系统的方式很有用。

如果你扫描了 pdf-1（没有文本层），比如“jpg”图像压缩，Abbyy Finereader 会给你 OCR 的 pdf，pdf-2。如果您选择无损图像压缩，它要么非常大，要么其图像质量明显低于 pdf-1。在许多情况下，最好的选择是保持源图像压缩原样，不要重新压缩图像。

pdf ocr adobe-acrobat

i3v*_*i3v

2017 03-20

4
推荐指数

1
解决办法

4553
查看次数

有什么软件可以把手写体转成文字？

我看了一下 MyScript，但该程序不接受 PDF 格式。

我有一些文档 (PDF) 是手写扫描件。

我需要一个可以扫描 PDF、使用 OCR 并将其转换为文本的程序。

这样的东西存在吗？

windows pdf ocr

Ger*_*els

lucky-day

3
推荐指数

1
解决办法

3万
查看次数

如何在 10 天内有效扫描 130,000 页纸页

我有一个相当大的项目，最终将造福社会，我正在寻找我能召集的所有帮助。我有大约 130,000 页需要数字化。它们中的许多都装在有订书钉的包装里，或者是用了 40 多年的纸（与今天的纸相比非常薄）。其中一些尺寸奇怪（全尺寸合法，地图和小明信片尺寸......）。但是，我们只有大约 10 天的时间来处理这项工作（一旦我们到达现场）。我们可以通宵工作。

我有一个 6 人的团队，我们完成这项任务的预算相对较少。我们考虑过现代扫描仪（例如进纸托盘 fujitsu scansnap），它可以以约 25ppm（每分钟页数）的速度处理页面，但我们担心页面被撕裂或卡住（并且我们正在努力不危及原件） . 还有订书钉的问题（可以删除......）。我们可以做平板，但是哇，手动完成这是一项艰巨的工作！对于非常大的零件，我们总是可以这样做。

我希望你们对如何实现这一点有一些非常聪明的想法......非常感谢您的时间和帮助

编辑似乎组合方法（高级纸扫描仪 + 垂直复印架）效果最好，以确保所需的页数/分钟。一个离线建议：复印机？如果我们先简单地复印整个收藏，然后让复印机继续发送数字，或者在扫描仪中复印复印件，我们会假设会发生什么。对我来说这似乎是双重工作，但我对技术的胆量不够熟悉，无法更好地了解。

scanning ocr archiving paper document-scanning

Gry*_*yph

2017 01-17

3
推荐指数

2
解决办法

1681
查看次数