我有几个低质量的pdf.我想使用OCR - 更精确的Ocropus 从中获取文本.要使用,我首先使用ImageMagick - 一个命令行工具将pdf转换为图像 - 将这些pdf转换为jpg或png.
然而,ImageMagick会产生非常低质量的图像,而Ocropus几乎无法识别任何内容.我想了解处理低质量pdf的最佳参数是什么,以便为OCR提供尽可能高质量的图像.
我找到了这个页面,但我不知道从哪里开始.
linux pdf imagemagick image-processing ghostscript
ghostscript ×1
image-processing ×1
imagemagick ×1
linux ×1
pdf ×1