Python Tesseract OCR训练到特定单词列表

Inê*_*ins 5 python string ocr tesseract image-processing

我对OCR和Tesseract还是陌生的。

到目前为止,我有一个工作脚本可以从图像中提取相当不错的文本。

我的疑问:是否可以训练tesseract以仅检索某种词典文件中显示的单词/字符?

例如,我有一个.txt,其中包含很多人的名字,我想训练Tesseract:“ SONIA”不是“ 50NlA”,“ YANNICK”不是“ VANNlD”,等等。

如果它具有所有可能名称的列表,将能够提供更好的准确性?如果原始图像是带有很多人名和有关该人的其他信息的文本,但是我只想从ocr中检索名字而忽略“嘈杂的信息”,该怎么办?抱歉,这是一个愚蠢的问题。

我已经阅读了https://groups.google.com/forum/#!topic/tesseract-ocr/r5qkHxQOT98和手册http://tesseract-ocr.googlecode.com/svn/trunk/doc/tesseract.1。 html并创建eng.user-words和市集文件...下一步应该做什么?由于它给了我相同的输出...

非常感谢您的时间和耐心。