如何在使用 pdfsandwich 将 OCR 添加到 pdf 时保持 pdf 图像不变?

use*_*888 7 pdf scanning ocr tesseract-ocr

我正在尝试将 OCR 添加到 PDF,并使用pdfsandwich来执行此操作。问题是 pdfsandwich 在执行 OCR 时处理图像,这会改变文档的外观。

有什么办法可以保证PDF图像保持完全不变吗?如果 pdfsandwich 无法做到这一点,则可以使用替代应用程序来完成此操作。

之前的例子: 前

之后的示例: 后

通过 pdfsandwich 运行 pdf 后,您可以轻松看到质量的下降。

我查看了 pdfsandwich 文档,但找不到任何有关保持图像不变的信息。

use*_*888 5

我联系了 pdfsandwich 的创建者 Tobial Elze,提出了我的问题。以下是他们的回应:

我完全明白你的意思,并且我同意这将是一个有用的功能。目前不可能完全保留原始图像,因为 pdfsandwich 调用 Tesseract 来创建最终的 pdf,Tesseract 在内部执行一些超出 pdfsandwich 范围和控制范围的处理。

默认情况下, pdfsandwich 将输入图像转换为黑白图像,正如您在自己的示例中看到的那样。您可以通过选项 -rgb 强制使用颜色(对于彩色图像),或者根据您的情况,通过选项 -gray 强制使用灰度,从而更接近原始图像。您可能想在您的示例中尝试后者,看看它是否有所改进。

除此之外,如果您发现 pdfsandwich 在 OCR 之前的“改进”功能并没有改善图像,反而使图像变得更糟,您可以通过选项 -nopreproc 关闭所有预处理。

我希望这有所帮助?

因为我的 PDF 已经是灰度的,所以只需添加标志-gray似乎就可以保留原始质量。-rgb是彩色图像的等效标志。