use*_*888 7 pdf scanning ocr tesseract-ocr
我正在尝试将 OCR 添加到 PDF,并使用pdfsandwich来执行此操作。问题是 pdfsandwich 在执行 OCR 时处理图像,这会改变文档的外观。
有什么办法可以保证PDF图像保持完全不变吗?如果 pdfsandwich 无法做到这一点,则可以使用替代应用程序来完成此操作。
通过 pdfsandwich 运行 pdf 后,您可以轻松看到质量的下降。
我查看了 pdfsandwich 文档,但找不到任何有关保持图像不变的信息。
我联系了 pdfsandwich 的创建者 Tobial Elze,提出了我的问题。以下是他们的回应:
我完全明白你的意思,并且我同意这将是一个有用的功能。目前不可能完全保留原始图像,因为 pdfsandwich 调用 Tesseract 来创建最终的 pdf,Tesseract 在内部执行一些超出 pdfsandwich 范围和控制范围的处理。
默认情况下, pdfsandwich 将输入图像转换为黑白图像,正如您在自己的示例中看到的那样。您可以通过选项 -rgb 强制使用颜色(对于彩色图像),或者根据您的情况,通过选项 -gray 强制使用灰度,从而更接近原始图像。您可能想在您的示例中尝试后者,看看它是否有所改进。
除此之外,如果您发现 pdfsandwich 在 OCR 之前的“改进”功能并没有改善图像,反而使图像变得更糟,您可以通过选项 -nopreproc 关闭所有预处理。
我希望这有所帮助?
因为我的 PDF 已经是灰度的,所以只需添加标志-gray
似乎就可以保留原始质量。-rgb
是彩色图像的等效标志。
归档时间: |
|
查看次数: |
913 次 |
最近记录: |