与同一图像上的tesseract不同的结果

Question

你好我想尝试在图像上.

在此输入图像描述

这是经过一些预处理之后的原始图像(跳过预处理部分,因为它与我的问题没有真正关联,但如果有人需要它会分享)

我有这个形象

在此输入图像描述

当我尝试使用tesseract ocr这个图像

我得到了一个结果

HN'

2809

但是当我在photoshop上手动裁剪图像的一半时

在此输入图像描述

我收到了

HN'

Z8

结果是.

我不知道什么这两个图像之间的差异,因为一个给2代替ž但对方一给ž.

我知道我必须平滑边缘以获得更准确的结果,但运动模糊,高斯模糊和普通模糊滤镜确实改变了我得到的结果.

Answer 1

Tesseract 实现了一种算法，根据邻近数字的数量和类型在字母Z上选择数字2 ：

在第一个图像中，它猜测Z上的2，因为它的邻居都是数字 (809)，因此它假设第一个数字也必须是数字。

我以前也遇到过这个问题。:(

顺便说一句，我认为你应该翻转图像的第一部分，使其HN'变为.NH。