man*_*dok 2 ocr tesseract imagemagick image-processing
我正在尝试对此类图像进行 OCR:
不幸的是,由于字符周围有噪声点,tesseract 无法检索该数字。
我尝试使用 ImageMagick 来提高图像质量,但没有成功。
例子:
convert input.tif -level 0%,150% output.tif
convert input.tif -colorspace CMYK -separate output_%d.tif
Run Code Online (Sandbox Code Playgroud)
有什么方法可以有效地检索此类图像中的字符吗?
非常感谢。
简单的闭运算(先膨胀后腐蚀)将为您提供所需的输出。下面是相同的 Python 实现。
img = cv2.imread(r'D:\Image\noiseOCR.png',0)
kernel = np.ones((3,3),np.uint8)
closing = cv2.morphologyEx(img, cv2.MORPH_CLOSE, kernel)
Run Code Online (Sandbox Code Playgroud)