PDF to tiff ImageMagick问题

clu*_*ter 5 command-line tiff imagemagick ghostscript adobe-reader

我正在尝试将pdfs转换为tiff图像以用于跟随OCR.我使用"-density 300x300 -depth 8"作为参数.第一个问题是从500 KB pdf文件我得到72 MB的tiff文件.第二个问题是导致OCR失败的结果图像质量差.在这里你可以自己看.Adobe Acrobat reader生成(打印)tiff图像: 在此输入图像描述

ImageMaggick tiff图片: 在此输入图像描述

差异很大.如何使用ImageMaggick获得与Adobe生成的图像一样好的效果?不是tiff neccesary,其他格式也会很好.

UPD:我发现'antialias'选项.现在它好多了.但仍然是OCR结果不如Adobe版本那么准确.

Kur*_*fle 7

我的建议是:使用Ghostscript命令行.因为ImageMagick无论如何都在后台使用Ghostscript(技术IM术语是:Ghostscript是某些转换的"委托",例如PDF-> TIFF).

这是一个命令行,应该适用于多页PDF文件的字母大小的页面:

gswin32c.exe ^
   -o page_%03d.tif ^
   -sDEVICE=tiffg4 ^
   -r720x720 ^
   -g6120x7920 ^
    input.pdf
Run Code Online (Sandbox Code Playgroud)

-g...参数使用"设备点"控制输出页面的绝对宽度+高度...(在720dpi时使用6120x7920,这恰好是字母大小).

这些TIFF页面......

  1. ......将是黑色+白色,
  2. ...将具有720dpi的分辨率,
  3. ...将被G4压缩和
  4. ...将比IM命令行中未压缩的300dpi小得多

您的IM参数-depth 8不适合从后来的OCR的pov中获得良好的结果,因为它会在字母周围产生灰色阴影,这对此没有帮助.

您的OCR结果现在应该比以前好多了.

如果您的OCR无法处理TIFF G4格式(我怀疑),那么您可以在Ghostscript的帮助下生成其他TIFF子格式.例如:

gswin32c.exe ^
   -o page_%03d.tif ^
   -sDEVICE=tiffgray ^
   -r720x720 ^
   -g6120x7920 ^
   -sCompression=lzw ^
    input.pdf
Run Code Online (Sandbox Code Playgroud)

.

gswin32c.exe ^
   -o page_%03d.tif ^
   -sDEVICE=tiff24nc ^
   -r720x720 ^
   -g6120x7920 ^
   -sCompression=lzw ^
    input.pdf
Run Code Online (Sandbox Code Playgroud)

tiffgray器件可创建8位灰度输出.该tiff24nc设备可创建8位RGB颜色输出.两种类型的TIFF当然都比tiffg4输出大.