从背景图像上的浅色文本中提取文本

ale*_*oot 0 python tesseract image-processing python-tesseract

我有一个如下图像:

要处理的图像

我想从中提取文本,应该是ws35,我尝试使用pytesseract库使用该方法:

pytesseract.image_to_string(Image.open(path))
Run Code Online (Sandbox Code Playgroud)

但它什么也没有回报......我做错了什么?如何使用OCR取回文本?我需要在它上面应用一些过滤器吗?

Sil*_*key 5

您可以尝试以下方法:

  • 使用您选择的方法对图像进行二值化(在这种情况下,使用127进行阈值处理似乎已足够)
  • 使用最小过滤器将丢失的点连接到形成字符.因此,r = 4的过滤器似乎工作得很好:应用最小滤波器后的图像
  • 如有必要,可以通过应用中值模糊(r = 4)进一步改善结果:在此输入图像描述

因为我个人不使用tesseract我无法尝试这张照片,但在线ocr工具似乎能够正确识别序列(特别是如果你使用模糊版本).