Nin*_*ina 5 macports homebrew tesseract-ocr macos
我在终端上使用以下命令将 PDF 转换为 TIF 文件
convert -density 300 -depth 4 lang.font-name.exp0.pdf lang.font-name.exp0.tif
convert lang.font-name.exp0.tif -colorspace rgb -type truecolor lang.font-name.exp0.tif
然后我尝试运行makebox命令,
tesseract lang.font-name.exp0.tif lang.font-name.exp0 batch.nochop makebox
这产生了以下错误:
Tesseract Open Source OCR Engine v3.02.02 with Leptonica
Error in findTiffCompression: function not present
Error in pixReadStreamTiff: function not present
Error in pixReadStream: tiff: no pix returned
Error in pixRead: pix not read
Unsupported image type.
并假设它与libtiff, run 命令有关tesseract -v并发现(或猜测)它丢失了
tesseract 3.02.02
leptonica-1.70
libjpeg 8d : libpng 1.6.10 : zlib 1.2.5
即使我卸载并重新安装 lib tiff,它也会产生同样的结果。不确定我在这里缺少什么。请指教!
brew rm -f libtiff
brew cleanup
brew missing
brew doctor
find /usr/local -user root
brew install libtiff
命令的输出 brew info leptonica 
编辑 #1
生成此 tiff 文件时使用GhostScript它返回相同的错误,当我尝试运行makebox命令时。也许我还缺少其他东西?我将字体大小设置为 50+,可以吗?
https://dl.dropboxusercontent.com/u/97646145/Issue/Tiff_File.zip (~4 MB)
编辑 #2
我创建了一页 tif 使用GhostScript,即使它不起作用??
https://dl.dropboxusercontent.com/u/97646145/Issue/Onepage_TIFF.zip (~60 KB)
我猜您正在按照Michael Lissner 的帖子向 Tesseract 添加自定义字体。
我尝试了同样的事情(命令convert),但得到了一个损坏的 TIFF,无法用任何应用程序打开。
所以我选择了 GUI 替代方案。我在 Scribus 中编写文本(因为它允许我增加字符之间的间距),然后从“文件” - “导出” - “另存为图像”菜单直接导出为 TIFF。我选择了 300 DPI 分辨率。
您还可以尝试什么:
gs -sDEVICE=tiffgray -r300x300 -dNOPAUSE -dBATCH -sOutputFile=<image_file> <input_pdf>如果是这种情况,它会转换所有页面)您还可能遇到哪些其他问题:
unicharset_extractor和mftraining(或者它们不在路径中,因为包应该包含它们)。| 归档时间: |
|
| 查看次数: |
6835 次 |
| 最近记录: |