降低图片中的噪点以使用 tesseract 启用 OCR

Question

我正在尝试对此类图像进行 OCR：

不幸的是，由于字符周围有噪声点，tesseract 无法检索该数字。

我尝试使用 ImageMagick 来提高图像质量，但没有成功。

例子：

 convert input.tif -level 0%,150% output.tif

 convert input.tif -colorspace CMYK -separate output_%d.tif

有什么方法可以有效地检索此类图像中的字符吗？

非常感谢。

Answer 1

简单的闭运算（先膨胀后腐蚀）将为您提供所需的输出。下面是相同的 Python 实现。

img = cv2.imread(r'D:\Image\noiseOCR.png',0)
kernel = np.ones((3,3),np.uint8)
closing = cv2.morphologyEx(img, cv2.MORPH_CLOSE, kernel)