使用tesseract将扫描的pdf转换为.txt文件

Gan*_*are 11 tesseract

我必须将包含扫描图像的.pdf文件转换为.txt文件文件.tesseract ocr仅将图像转换为.txt.但我需要首先提取.tif图像然后转换它.任何人都可以帮我吗?

Kar*_*l S 19

使用Imagemagick:

convert -density 600 input.pdf output.tif
Run Code Online (Sandbox Code Playgroud)

密度是DPI,根据我的经验600 DPI效果最好.

  • @GaneshNannaware是的,它可以.将`%04d`放在输出文件的名称中,看看它是如何工作的. (2认同)