P.h*_*gne 5 ocr android tesseract
我正在开发一个Android应用程序,它可以拍摄照片并将其翻译成文本.我在Windows上使用tesseract 3.
我已经设法使大部分翻译工作正常(在进行重新缩放,二值化,增强之后),但是某些字符仍未翻译,因为它应该是(ri - > m,le - > Ie等).
为了解决这个问题,我正在考虑强迫tesseract查看我的语言词典(在我的例子中是法语)并使用最可能的词来进行翻译.当我打开法语词典时,我也很惊讶地看到每一个英语单词.
有没有办法强制tesseract找到适当语言中最可能的单词?
此外,我没有在网上找到很多Android代码示例,我不确定我是否正在进行最有效的图像预处理.这就是我目前正在做的事情,你知道我怎么能更好地改进这个吗?
photo = WriteFile.writeBitmap(Scale.scale(ReadFile.readBitmap(bitmap), 3, 3));
photo = WriteFile.writeBitmap(AdaptiveMap.backgroundNormMorph(ReadFile.readBitmap(photo)));
photo = WriteFile.writeBitmap(Binarize.otsuAdaptiveThreshold(ReadFile.readBitmap(photo)));
photo = WriteFile.writeBitmap(Enhance.unsharpMasking(ReadFile.readBitmap(photo), 3, (float) 0.5));
Run Code Online (Sandbox Code Playgroud)
谢谢您的帮助
编辑:例如,这是我的结果

和文字结果:
Les行动社会
Les actions sociales regroupentlesactivitésuivantes:Heureuxévenements+ Aide disapap +Aidescolarité+aideétudiante+ Aide de secours,Malgréunnombredebénéficiaires plus重要的et un coat moyenparactivitéplusélevequ'en2012,Ie budget2013allouécouvrelargement les besoins d'ou l'excédentconstatéLaCFTC ne peut que regretter la suppression en 2013 deI'activité«abonnement enfant»car son fi nancement auraitpuétrecouvertpar l'excédentconstaté
谢谢 :)
Tesseract 有 user.dawg 文件,您可以在其中添加要添加到其字典中的单词。
但我要做的是通过额外的检查来运行输出。编写一个程序,按空格分割文本,删除标点符号,然后检查字典中的每个单词 - 如果该单词完全匹配,那么这就是真正的单词,如果不是,则使用编辑距离将该单词与其他单词进行比较。
我假设你的字典将是一个数据库,所以你可以做其他聪明的事情,你可以编写一个查询来搜索确切的单词(显然),但是当找不到该单词时,使用SQL 中的LIKE 运算符在您选择的时尚(例如以相同字母开头的所有单词),因此您仅对以相同字母开头的单词(或以您选择的方式看起来像您的单词的单词)运行您的 Levenstein 距离,从而节省不必要的比较。