小编i3v*_*i3v的帖子

假设您有 2 个“已扫描”的 pdf 文件。

两个文件都包含相同的图像，只是压缩方式不同。

目标是将相同的文本层嵌入到第一个 pdf 中。

“仅 OCR 1st 文件”不是解决方案。我知道 Acrobat（和其他一些工具）能够在不改变图像层的情况下进行 OCR，但我对它们的 OCR 质量不满意。

所以，我看到了两种可能的方式：

关于第一种方式，我什么也没找到。关于第二种方式，我找到了两个工具，它们非常接近hocr2pdf和pdf2text，但据我所知，它们仍然不够。:(

PS：使用示例：

我刚刚发现了另一个示例，其中此类操作以系统的方式很有用。

如果你扫描了 pdf-1（没有文本层），比如“jpg”图像压缩，Abbyy Finereader 会给你 OCR 的 pdf，pdf-2。如果您选择无损图像压缩，它要么非常大，要么其图像质量明显低于 pdf-1。在许多情况下，最好的选择是保持源图像压缩原样，不要重新压缩图像。

4
推荐指数

1
解决办法

4553
查看次数

ocr ×1

pdf ×1

小编i3v_i3v的帖子