Inê*_*ins 5 python string ocr tesseract image-processing
我对OCR和Tesseract还是陌生的。
到目前为止,我有一个工作脚本可以从图像中提取相当不错的文本。
我的疑问:是否可以训练tesseract以仅检索某种词典文件中显示的单词/字符?
例如,我有一个.txt,其中包含很多人的名字,我想训练Tesseract:“ SONIA”不是“ 50NlA”,“ YANNICK”不是“ VANNlD”,等等。
如果它具有所有可能名称的列表,将能够提供更好的准确性?如果原始图像是带有很多人名和有关该人的其他信息的文本,但是我只想从ocr中检索名字而忽略“嘈杂的信息”,该怎么办?抱歉,这是一个愚蠢的问题。
我已经阅读了https://groups.google.com/forum/#!topic/tesseract-ocr/r5qkHxQOT98和手册http://tesseract-ocr.googlecode.com/svn/trunk/doc/tesseract.1。 html并创建eng.user-words和市集文件...下一步应该做什么?由于它给了我相同的输出...
非常感谢您的时间和耐心。
| 归档时间: | 
 | 
| 查看次数: | 1803 次 | 
| 最近记录: |