小编i3v*_*i3v的帖子

将pdf文本层复制到另一个pdf

假设您有 2 个“已扫描”的 pdf 文件。

  1. 大,但没有文字层。
  2. 较小(具有较低质量的图像),但具有正确的文本层。

两个文件都包含相同的图像,只是压缩方式不同。

目标是将相同的文本层嵌入到第一个 pdf 中。

“仅 OCR 1st 文件”不是解决方案。我知道 Acrobat(和其他一些工具)能够在不改变图像层的情况下进行 OCR,但我对它们的 OCR 质量不满意。

所以,我看到了两种可能的方式:

  1. 以某种方式导出导入文本层
  2. 以某种方式替换图像层中的图像。

关于第一种方式,我什么也没找到。关于第二种方式,我找到了两个工具,它们非常接近hocr2pdfpdf2text,但据我所知,它们仍然不够。:(

PS:使用示例:

我刚刚发现了另一个示例,其中此类操作以系统的方式很有用。

如果你扫描了 pdf-1(没有文本层),比如“jpg”图像压缩,Abbyy Finereader 会给你 OCR 的 pdf,pdf-2。如果您选择无损图像压缩,它要么非常大,要么其图像质量明显低于 pdf-1。在许多情况下,最好的选择是保持源图像压缩原样,不要重新压缩图像。

pdf ocr adobe-acrobat

4
推荐指数
1
解决办法
4553
查看次数

标签 统计

adobe-acrobat ×1

ocr ×1

pdf ×1