我在文本文件中有一个单词词典,用换行符分隔.我想识别使用Tesseract的手写,并输出文本文件中最近的匹配行.
这是我第一次使用Tesseract,它已经在我的项目工作区中,我只需要训练数据.
是否有可能训练Tesseract这样做?
我想看看我是否可以扫描一个登录表.好消息是我知道可能写的90%的名字.
我的想法是使用tessaract来解析名称的图像,然后使用Levenshtein算法将每一行与我的数据库中的名称列表进行比较,如果我得到合理的近似匹配,则该名称是正确的.
这种方法听起来不错吗?如果没有,其他想法?
我尝试在样本表上使用tesseract(见下文)
我用了:
tesseract simple.png -psm 4 outtxt
Tesseract Open Source OCR Engine v3.05.01 with Leptonica
Warning. Invalid resolution 0 dpi. Using 70 instead.
Error in boxClipToRectangle: box outside rectangle
Error in pixScanForForeground: invalid box
Run Code Online (Sandbox Code Playgroud)
我假设它不喜欢第2行,因为我走到了线下.
我得到的结果是:
1.. AM: (harm;
l. ’E (J 22 a 00k
2‘ wau \\) [HQ
4. KIM TAYLOE
5. LN] Davis
6‘ Mz?é! Ha K
Run Code Online (Sandbox Code Playgroud)
显然不是最好的,我的猜测是4和5的距离匹配会起作用,但其余的都不是很接近.
我控制了我的登录表,但没有人员的笔迹,所以如果有任何改变,我可以帮忙,请告诉我.