降低图片中的噪点以使用 tesseract 启用 OCR

man*_*dok 2 ocr tesseract imagemagick image-processing

我正在尝试对此类图像进行 OCR:

在此输入图像描述

不幸的是,由于字符周围有噪声点,tesseract 无法检索该数字。

我尝试使用 ImageMagick 来提高图像质量,但没有成功。

例子:

 convert input.tif -level 0%,150% output.tif

 convert input.tif -colorspace CMYK -separate output_%d.tif
Run Code Online (Sandbox Code Playgroud)

在此输入图像描述

有什么方法可以有效地检索此类图像中的字符吗?

非常感谢。

fla*_*ite 5

简单的闭运算(先膨胀后腐蚀)将为您提供所需的输出。下面是相同的 Python 实现。

img = cv2.imread(r'D:\Image\noiseOCR.png',0)
kernel = np.ones((3,3),np.uint8)
closing = cv2.morphologyEx(img, cv2.MORPH_CLOSE, kernel)
Run Code Online (Sandbox Code Playgroud)

去噪输出图像