我对OCR很陌生,对用于识别单词的算法几乎一无所知.我对此很熟悉.
有人可以建议用于识别和分离连接形式的单个字符的典型方法(我的意思是所有字母都链接在一起的单词)?忘记手写,假设字母使用已知字体连接在一起,确定单词中每个字符的最佳方法是什么?当单独编写字符时没有问题,但是当它们连接在一起时,我们应该知道每个字符的开始和结束位置,以便进入下一步并将它们单独匹配到一个字母.有没有任何已知的算法?
这个过程的标准术语是“字符分割”——分割是图像处理术语,用于将图像分成分组区域以进行识别。如果您想了解更多信息,“阿拉伯字符分割”在谷歌学术中会出现很多点击。
我鼓励您查看Tesseract - 一个开源 OCR 实现,尤其是文档。
术语表中定义的功能有一些相关内容,但这里有大量信息。
基本上,Tesseract通过查看斑点(而不是字母)然后将这些斑点组合成单词来解决问题(来自Tesseract 的工作原理)。这避免了您所描述的问题,同时又产生了新的问题。
对于阿拉伯语(正如您所指出的),Tesseract 不起作用。我对这个领域了解不多,但这篇论文似乎暗示动态时间扭曲(DTW)是一种有用的技术。这会尝试拉伸单词以将其与已知单词相匹配,并且再次在单词而不是字母空间中起作用。