与同一图像上的tesseract不同的结果

Ana*_*mov 5 ocr opencv tesseract image-processing

你好我想尝试在图像上.

在此输入图像描述

这是经过一些预处理之后的原始图像(跳过预处理部分,因为它与我的问题没有真正关联,但如果有人需要它会分享)

我有这个形象

在此输入图像描述

当我尝试使用tesseract ocr这个图像

我得到了一个结果

HN'

2809
Run Code Online (Sandbox Code Playgroud)

但是当我在photoshop上手动裁剪图像的一半时

在此输入图像描述

我收到了

HN'

Z8
Run Code Online (Sandbox Code Playgroud)

结果是.

我不知道什么这两个图像之间的差异,因为一个给2代替ž但对方一给ž.

我知道我必须平滑边缘以获得更准确的结果,但运动模糊,高斯模糊和普通模糊滤镜确实改变了我得到的结果.

kar*_*lip 4

Tesseract 实现了一种算法,根据邻近数字的数量和类型在字母Z上选择数字2 :

  • 在第一个图像中,它猜测Z上的2,因为它的邻居都是数字 (809),因此它假设第一个数字也必须是数字。

我以前也遇到过这个问题。:(

顺便说一句,我认为你应该翻转图像的第一部分,使其HN'变为.NH