如何在使用 pdfsandwich 将 OCR 添加到 pdf 时保持 pdf 图像不变？

Question

如何在使用 pdfsandwich 将 OCR 添加到 pdf 时保持 pdf 图像不变？

use*_*888 7 pdf scanning ocr tesseract-ocr

我正在尝试将 OCR 添加到 PDF，并使用pdfsandwich来执行此操作。问题是 pdfsandwich 在执行 OCR 时处理图像，这会改变文档的外观。

有什么办法可以保证PDF图像保持完全不变吗？如果 pdfsandwich 无法做到这一点，则可以使用替代应用程序来完成此操作。

之前的例子：

之后的示例：

通过 pdfsandwich 运行 pdf 后，您可以轻松看到质量的下降。

我查看了 pdfsandwich 文档，但找不到任何有关保持图像不变的信息。

Answer 1

use*_*888 5

我联系了 pdfsandwich 的创建者 Tobial Elze，提出了我的问题。以下是他们的回应：

我完全明白你的意思，并且我同意这将是一个有用的功能。目前不可能完全保留原始图像，因为 pdfsandwich 调用 Tesseract 来创建最终的 pdf，Tesseract 在内部执行一些超出 pdfsandwich 范围和控制范围的处理。

默认情况下， pdfsandwich 将输入图像转换为黑白图像，正如您在自己的示例中看到的那样。您可以通过选项 -rgb 强制使用颜色（对于彩色图像），或者根据您的情况，通过选项 -gray 强制使用灰度，从而更接近原始图像。您可能想在您的示例中尝试后者，看看它是否有所改进。

除此之外，如果您发现 pdfsandwich 在 OCR 之前的“改进”功能并没有改善图像，反而使图像变得更糟，您可以通过选项 -nopreproc 关闭所有预处理。

我希望这有所帮助？

因为我的 PDF 已经是灰度的，所以只需添加标志-gray似乎就可以保留原始质量。-rgb是彩色图像的等效标志。

归档时间：	6 年，9 月前
查看次数：	913 次
最近记录：	6 年，8 月前