将新字体添加到Tesseract 3

Jos*_*yes 6 ocr tesseract

我正在尝试向tesseract ocr添加新字体.我正在学习这个教程,但是我遇到了一些问题.

这是我到目前为止所做的:

创建培训文档

convert eng.myfont.exp0.pdf eng.myfont.exp0.tif
火车Tesseract

tesseract eng.myfont.exp0.tif eng.myfont.exp0 batch.nochop makebox

这创建了我的eng.myfont.exp0.box文件.

我用moshpytt打开文件并确保它被正确检测到.
将盒子文件送回tesseract

tesseract eng.myfont.exp0.tif eng.myfont.exp0.box nobatch box.train.stderr

我有这个结果:

Tesseract开源OCR引擎v3.03与Leptonica
APPLY_BOXES:
从boxfile中读取的框:146
找到146个好的blob.
TRAINING ...字体名称= myfont.exp0
生成6个单词的训练数据
- eng.myfont.exp0.box.tr文件和eng.myfont.exp0.box.txt生成
尝试检测框文件中使用的字符集(这是我卡住的地方)

unicharset_extractor *.box

结果:

unicharset_extractor:找不到命令

我也得到unicharset_extractor eng.myfont.exp0.box了同样的结果.

我正在使用:

tesseract 3.03
leptonica-1.70
libgif 4.1.6(？):libjpeg 8d:libpng 1.2.50:libtiff 4.0.3:zlib 1.2.8:webp 0.4.0
Ubuntu 14.04.1 LTS

从Ubuntu 14.04中省略了Tesseract 3.03 RC的培训工具.所以要么退回到Tesseract 3.02,要么升级到Ubuntu 14.10,它应该拥有它.

归档时间：	11 年，3 月前
查看次数：	5427 次
最近记录：	11 年，2 月前

OCR扑克牌 11

在android上使用tesseract 10

使用tesseract转换UIImage black'n白色而不是灰度 5

识别并提取 PDF 文档的特定部分 5

指定的捆绑包iOS应用程序中不存在许可证文件 5

从图像中提取特定的文本关联值 5

layoutparser 给出错误“模块layoutparser 没有属性 ocr” 4

使用 OpenCV Python 和 Tesseract 从图像中读取车牌 3

不能在tesseract中使用ChoiceIterator 2

如何使用移动设备中的语言在Tess4J中设置语言？ 1

grep一个文件,但显示几个周围的行？ 3277

何时在Java中使用LinkedList而不是ArrayList？ 2974

不区分大小写'包含(字符串)' 2785

如何在Python中延迟时间？ 2638

如何在Bash中连接字符串变量 2624

如何检查对象是否是数组？ 2581

何时在CSS中使用margin和padding 2277

如何检查Bash中是否设置了变量？ 1417

适用于PDF文件的MIME媒体类型 1229

LF将被git中的CRLF取代 - 这是什么,它是否重要？ 1146