假设您有 2 个“已扫描”的 pdf 文件。
两个文件都包含相同的图像,只是压缩方式不同。
目标是将相同的文本层嵌入到第一个 pdf 中。
“仅 OCR 1st 文件”不是解决方案。我知道 Acrobat(和其他一些工具)能够在不改变图像层的情况下进行 OCR,但我对它们的 OCR 质量不满意。
所以,我看到了两种可能的方式:
关于第一种方式,我什么也没找到。关于第二种方式,我找到了两个工具,它们非常接近hocr2pdf和pdf2text,但据我所知,它们仍然不够。:(
PS:使用示例:
我刚刚发现了另一个示例,其中此类操作以系统的方式很有用。
如果你扫描了 pdf-1(没有文本层),比如“jpg”图像压缩,Abbyy Finereader 会给你 OCR 的 pdf,pdf-2。如果您选择无损图像压缩,它要么非常大,要么其图像质量明显低于 pdf-1。在许多情况下,最好的选择是保持源图像压缩原样,不要重新压缩图像。