使用OCR分隔单词中连接字母的典型方法是什么

Question

使用OCR分隔单词中连接字母的典型方法是什么

我对OCR很陌生,对用于识别单词的算法几乎一无所知.我对此很熟悉.

有人可以建议用于识别和分离连接形式的单个字符的典型方法(我的意思是所有字母都链接在一起的单词)？忘记手写,假设字母使用已知字体连接在一起,确定单词中每个字符的最佳方法是什么？当单独编写字符时没有问题,但是当它们连接在一起时,我们应该知道每个字符的开始和结束位置,以便进入下一步并将它们单独匹配到一个字母.有没有任何已知的算法？

Answer 1

Nic*_*cue 3

这个过程的标准术语是“字符分割”——分割是图像处理术语，用于将图像分成分组区域以进行识别。如果您想了解更多信息，“阿拉伯字符分割”在谷歌学术中会出现很多点击。

我鼓励您查看Tesseract - 一个开源 OCR 实现，尤其是文档。

术语表中定义的功能有一些相关内容，但这里有大量信息。

基本上，Tesseract通过查看斑点（而不是字母）然后将这些斑点组合成单词来解决问题（来自Tesseract 的工作原理）。这避免了您所描述的问题，同时又产生了新的问题。

对于阿拉伯语（正如您所指出的），Tesseract 不起作用。我对这个领域了解不多，但这篇论文似乎暗示动态时间扭曲（DTW）是一种有用的技术。这会尝试拉伸单词以将其与已知单词相匹配，并且再次在单词而不是字母空间中起作用。

归档时间：	15 年，10 月前
查看次数：	3459 次
最近记录：	12 年，6 月前