clu*_*ter 5 command-line tiff imagemagick ghostscript adobe-reader
我正在尝试将pdfs转换为tiff图像以用于跟随OCR.我使用"-density 300x300 -depth 8"作为参数.第一个问题是从500 KB pdf文件我得到72 MB的tiff文件.第二个问题是导致OCR失败的结果图像质量差.在这里你可以自己看.Adobe Acrobat reader生成(打印)tiff图像:
ImageMaggick tiff图片:
差异很大.如何使用ImageMaggick获得与Adobe生成的图像一样好的效果?不是tiff neccesary,其他格式也会很好.
UPD:我发现'antialias'选项.现在它好多了.但仍然是OCR结果不如Adobe版本那么准确.
我的建议是:使用Ghostscript命令行.因为ImageMagick无论如何都在后台使用Ghostscript(技术IM术语是:Ghostscript是某些转换的"委托",例如PDF-> TIFF).
这是一个命令行,应该适用于多页PDF文件的字母大小的页面:
gswin32c.exe ^
-o page_%03d.tif ^
-sDEVICE=tiffg4 ^
-r720x720 ^
-g6120x7920 ^
input.pdf
Run Code Online (Sandbox Code Playgroud)
该-g...
参数使用"设备点"控制输出页面的绝对宽度+高度...(在720dpi时使用6120x7920,这恰好是字母大小).
这些TIFF页面......
您的IM参数-depth 8
不适合从后来的OCR的pov中获得良好的结果,因为它会在字母周围产生灰色阴影,这对此没有帮助.
您的OCR结果现在应该比以前好多了.
如果您的OCR无法处理TIFF G4格式(我怀疑),那么您可以在Ghostscript的帮助下生成其他TIFF子格式.例如:
gswin32c.exe ^
-o page_%03d.tif ^
-sDEVICE=tiffgray ^
-r720x720 ^
-g6120x7920 ^
-sCompression=lzw ^
input.pdf
Run Code Online (Sandbox Code Playgroud)
.
gswin32c.exe ^
-o page_%03d.tif ^
-sDEVICE=tiff24nc ^
-r720x720 ^
-g6120x7920 ^
-sCompression=lzw ^
input.pdf
Run Code Online (Sandbox Code Playgroud)
该tiffgray
器件可创建8位灰度输出.该tiff24nc
设备可创建8位RGB颜色输出.两种类型的TIFF当然都比tiffg4
输出大.
归档时间: |
|
查看次数: |
9221 次 |
最近记录: |