Android OCR应用程序:Tesseract字典

P.h*_*gne 5 ocr android tesseract

我正在开发一个Android应用程序,它可以拍摄照片并将其翻译成文本.我在Windows上使用tesseract 3.

我已经设法使大部分翻译工作正常(在进行重新缩放,二值化,增强之后),但是某些字符仍未翻译,因为它应该是(ri - > m,le - > Ie等).

为了解决这个问题,我正在考虑强迫tesseract查看我的语言词典(在我的例子中是法语)并使用最可能的词来进行翻译.当我打开法语词典时,我也很惊讶地看到每一个英语单词.

有没有办法强制tesseract找到适当语言中最可能的单词?

此外,我没有在网上找到很多Android代码示例,我不确定我是否正在进行最有效的图像预处理.这就是我目前正在做的事情,你知道我怎么能更好地改进这个吗?

photo = WriteFile.writeBitmap(Scale.scale(ReadFile.readBitmap(bitmap), 3, 3));
photo = WriteFile.writeBitmap(AdaptiveMap.backgroundNormMorph(ReadFile.readBitmap(photo)));

photo = WriteFile.writeBitmap(Binarize.otsuAdaptiveThreshold(ReadFile.readBitmap(photo))); 
photo = WriteFile.writeBitmap(Enhance.unsharpMasking(ReadFile.readBitmap(photo), 3, (float) 0.5));
Run Code Online (Sandbox Code Playgroud)

谢谢您的帮助

编辑:例如,这是我的结果 文件的照片 结果照片

和文字结果:

Les行动社会

Les actions sociales regroupentlesactivitésuivantes:Heureuxévenements+ Aide disapap +Aidescolarité+aideétudiante+ Aide de secours,Malgréunnombredebénéficiaires plus重要的et un coat moyenparactivitéplusélevequ'en2012,Ie budget2013allouécouvrelargement les besoins d'ou l'excédentconstatéLaCFTC ne peut que regretter la suppression en 2013 deI'activité«abonnement enfant»car son fi nancement auraitpuétrecouvertpar l'excédentconstaté

谢谢 :)

Boj*_*hev 0

Tesseract 有 user.dawg 文件,您可以在其中添加要添加到其字典中的单词。

但我要做的是通过额外的检查来运行输出。编写一个程序,按空格分割文本,删除标点符号,然后检查字典中的每个单词 - 如果该单词完全匹配,那么这就是真正的单词,如果不是,则使用编辑距离将该单词与其他单词进行比较

我假设你的字典将是一个数据库,所以你可以做其他聪明的事情,你可以编写一个查询来搜索确切的单词(显然),但是当找不到该单词时,使用SQL 中的LIKE 运算符在您选择的时尚(例如以相同字母开头的所有单词),因此您仅对以相同字母开头的单词(或以您选择的方式看起来像您的单词的单词)运行您的 Levenstein 距离,从而节省不必要的比较。