有没有办法用小字体改进tesseract OCR?

Ria*_*azm 12 ocr tesseract python-imaging-library

我试图通过python-tesseract使用tesseract-OCR来读取如下所示的低分辨率字体:

在此输入图像描述

不幸的是,图像返回

ZIJZHZI
Run Code Online (Sandbox Code Playgroud)

我认为分辨率太低,导致问题.我已经尝试放大图像,并将其裁剪为单个字符,但这些都没有提供太多改进.还有什么我应该考虑做的事情,最好是可以使用Python Imaging Library完成的事情吗?或者我应该放弃/训练tesseract.

对于它的价值,PIL具有以下内置过滤器:

BLUR,CONTOUR,DETAIL,EDGE_ENHANCE,
EDGE_ENHANCE_MORE,EMBOSS,FIND_EDGES,
SMOOTH,SMOOTH_MORE和SHARPEN

Hri*_*tov 17

我试图用以下方法放大图像:

  convert -resize 400% in.bmp out.bmp
Run Code Online (Sandbox Code Playgroud)

然后阅读它:

  tesseract out.bmp res
Run Code Online (Sandbox Code Playgroud)

结果是正确的:

  100
Run Code Online (Sandbox Code Playgroud)