有没有办法用小字体改进tesseract OCR？

Question

我试图通过python-tesseract使用tesseract-OCR来读取如下所示的低分辨率字体:

在此输入图像描述

不幸的是,图像返回

ZIJZHZI

我认为分辨率太低,导致问题.我已经尝试放大图像,并将其裁剪为单个字符,但这些都没有提供太多改进.还有什么我应该考虑做的事情,最好是可以使用Python Imaging Library完成的事情吗？或者我应该放弃/训练tesseract.

对于它的价值,PIL具有以下内置过滤器:

BLUR,CONTOUR,DETAIL,EDGE_ENHANCE,
EDGE_ENHANCE_MORE,EMBOSS,FIND_EDGES,
SMOOTH,SMOOTH_MORE和SHARPEN

Answer 1

我试图用以下方法放大图像:

  convert -resize 400% in.bmp out.bmp

然后阅读它:

  tesseract out.bmp res

结果是正确的: