Tesseract自定义词典

Question

我目前正在使用tesseract OCR开发一个Android项目.我希望通过添加字典来微调给用户的结果.根据http://code.google.com/p/tesseract-ocr/wiki/FAQ,最好的解决方法是

将tessdata/eng.user-words替换为您自己的单词列表,格式相同 - UTF8文本,每行一个单词.

但是在tessdata文件夹中没有eng.user-words文件,我假设如果我只用它的字典制作一个文本文件,它将永远不会被使用..

有没有人有类似的经历,知道该怎么办？任何建议都会有很大的帮助.

Answer 1

如果你正在使用tesseract 3(我认为你是).你必须重建你的eng.trainddata文件我打算完全替换word-dawg文件以试图获得更好的结果(即 - 我正在检测的单词总是相同的).

编译tesseract时,您需要在培训目录中使用combine_tessdata和wordlist2dawg可执行文件.

解压一切(我这样做只是为了备份我的eng.word-dawg,你以后还需要unicharset)

./combine_tessdata -u eng.traineddata
创建wordlist的文本文件(wordlistfile)
创建一个eng.word-dawg

./wordlist2dawg wordlistfile eng.word-dawg traineddat_backup/.unicharset
替换word-dawg文件

./combine_tessdata -o eng.traineddata eng.word-dawg

那应该是它.