OCR:小文本的细分

gon*_*opp 7 language-agnostic ocr opencv image-processing image-segmentation

问题

我一直在构建一个(非常)简单的OCR引擎.由于我试图对非常小(像素大小)的字符进行分类,我在分割方面遇到了一些困难.这是一个例子,经过尽力而为的图像范围阈值处理:

有问题的分割图像63:

我试过的

错误检测:

  • 段的大水平尺寸.它主要起作用,但对于一些较大的角色失败(误报).
  • 分类,并拒绝低分.这似乎有点浪费.

错误修正:

  • 垂直添加像素(垂直直方图),找到最小值.在许多样本中,它会在错误的位置切割许多段.

我还没有尝试过

  • 尝试对所有可能的分割点(像素)进行分类.这将是非常浪费的,并且很难扩展为3合并字符段.
  • 我一直在阅读形态学方法,将角色转化为数学曲线,但我不知道真的知道从哪里开始,或者是否值得努力

然后去哪儿?

我不知道.因此这个问题:)

Bri*_*ond 6

向后倾斜,一半闭上眼睛.

63 :-)

现在,如果只是电脑那么容易!

它非常接近硅掩模中的双重图案(或不做?).

我建议过采样(每个轴的像素数增加一倍或四倍),滤波(可能是低通 - 或者可能是带通,其中通带=线的空间频率),重新阈值直到它们分开.价格昂贵,因此仅适用于问题区域.