Tesseract OCR:不支持的图像类型

Nin*_*ina 5 macports homebrew tesseract-ocr macos

我在终端上使用以下命令将 PDF 转换为 TIF 文件

convert -density 300 -depth 4 lang.font-name.exp0.pdf lang.font-name.exp0.tif

convert lang.font-name.exp0.tif -colorspace rgb -type truecolor lang.font-name.exp0.tif

然后我尝试运行makebox命令,

tesseract lang.font-name.exp0.tif lang.font-name.exp0 batch.nochop makebox

这产生了以下错误:

Tesseract Open Source OCR Engine v3.02.02 with Leptonica Error in findTiffCompression: function not present Error in pixReadStreamTiff: function not present Error in pixReadStream: tiff: no pix returned Error in pixRead: pix not read Unsupported image type.

并假设它与libtiff, run 命令有关tesseract -v并发现(或猜测)它丢失了

tesseract 3.02.02 leptonica-1.70 libjpeg 8d : libpng 1.6.10 : zlib 1.2.5

即使我卸载并重新安装 lib tiff,它也会产生同样的结果。不确定我在这里缺少什么。请指教!

brew rm -f libtiff brew cleanup brew missing brew doctor find /usr/local -user root brew install libtiff

命令的输出 brew info leptonica 这里

编辑 #1

生成此 tiff 文件时使用GhostScript它返回相同的错误,当我尝试运行makebox命令时。也许我还缺少其他东西?我将字体大小设置为 50+,可以吗?

https://dl.dropboxusercontent.com/u/97646145/Issue/Tiff_File.zip (~4 MB)

编辑 #2

我创建了一页 tif 使用GhostScript,即使它不起作用??

https://dl.dropboxusercontent.com/u/97646145/Issue/Onepage_TIFF.zip (~60 KB)

Cor*_*ius 3

我猜您正在按照Michael Lissner 的帖子向 Tesseract 添加自定义字体。

我尝试了同样的事情(命令convert),但得到了一个损坏的 TIFF,无法用任何应用程序打开。

所以我选择了 GUI 替代方案。我在 Scribus 中编写文本(因为它允许我增加字符之间的间距),然后从“文件” -导出” - “另存为图像”菜单直接导出为 TIFF。我选择了 300 DPI 分辨率。

您还可以尝试什么:

  • GIMP 打开可另存为 TIFF 的 PDF
  • Ghostscript:(gs -sDEVICE=tiffgray -r300x300 -dNOPAUSE -dBATCH -sOutputFile=<image_file> <input_pdf>如果是这种情况,它会转换所有页面)

您还可能遇到哪些其他问题:

  • Linux:如果你安装了 Tesseract 的 repo 版本(至少在 Ubuntu 中),你将没有所需的可执行文件:unicharset_extractormftraining(或者它们不在路径中,因为包应该包含它们)。