Tesseract OCR混淆将0减为8

Vil*_*sol 5 python ocr tesseract

我已经对tesseract的总站字体进行了培训,但是无论如何,我都无法识别0。我正在使用jTessEditor创建训练tif和框。即使在验证时,它也将所有0读取为8s。我有什么想念的吗?

这是0的示例,它读为8:

我使用以下参数:

--psm 10 -c tessedit_char_whitelist=0123456789# --oem 3 -l terminus

小智 1

EasyOCR 是轻量级模型,为收据或 PDF 转换提供了良好的性能。它通过 pdf 文件、收据、账单等有组织的文本提供更准确的结果。EasyOCR 在噪声图像上也表现良好,并且比 pytesseract 更好地识别数字。

代码:

!pip install easyocr

 import easyocr

 import cv2

    #Initialzing the ocr
    img = cv2.imread("image path")
    text_reader = easyocr.Reader(['en']) #Initialzing the ocr
    results = text_reader.readtext(img)
    for (bbox, text, prob) in results:
        print(text)
Run Code Online (Sandbox Code Playgroud)