我正在尝试将 OCR 添加到 PDF,并使用pdfsandwich来执行此操作。问题是 pdfsandwich 在执行 OCR 时处理图像,这会改变文档的外观。
有什么办法可以保证PDF图像保持完全不变吗?如果 pdfsandwich 无法做到这一点,则可以使用替代应用程序来完成此操作。
之前的例子:
之后的示例:
通过 pdfsandwich 运行 pdf 后,您可以轻松看到质量的下降。
我查看了 pdfsandwich 文档,但找不到任何有关保持图像不变的信息。
pdf scanning ocr tesseract-ocr
ocr ×1
pdf ×1
scanning ×1
tesseract-ocr ×1