将新字体添加到Tesseract 3

Jos*_*yes 6 ocr tesseract

我正在尝试向tesseract ocr添加新字体.我正在学习这个教程,但是我遇到了一些问题.

这是我到目前为止所做的:

  1. 创建培训文档

    convert eng.myfont.exp0.pdf eng.myfont.exp0.tif

  2. 火车Tesseract

    tesseract eng.myfont.exp0.tif eng.myfont.exp0 batch.nochop makebox

    这创建了我的eng.myfont.exp0.box文件.

    我用moshpytt打开文件并确保它被正确检测到.

  3. 将盒子文件送回tesseract

    tesseract eng.myfont.exp0.tif eng.myfont.exp0.box nobatch box.train.stderr

    我有这个结果:

    Tesseract开源OCR引擎v3.03与Leptonica
    APPLY_BOXES:
    从boxfile中读取的框:146
    找到146个好的blob.
    TRAINING ...字体名称= myfont.exp0
    生成6个单词的训练数据

    • eng.myfont.exp0.box.tr文件和eng.myfont.exp0.box.txt生成
  4. 尝试检测框文件中使用的字符集(这是我卡住的地方)

    unicharset_extractor *.box

结果:

unicharset_extractor:找不到命令

我也得到unicharset_extractor eng.myfont.exp0.box了同样的结果.

我正在使用:

  • tesseract 3.03
  • leptonica-1.70
  • libgif 4.1.6(?):libjpeg 8d:libpng 1.2.50:libtiff 4.0.3:zlib 1.2.8:webp 0.4.0
  • Ubuntu 14.04.1 LTS

ngu*_*enq 6

从Ubuntu 14.04中省略了Tesseract 3.03 RC的培训工具.所以要么退回到Tesseract 3.02,要么升级到Ubuntu 14.10,它应该拥有它.