Tesseract-OCR(3.02)识别准确度和速度

Ant*_*ski 5 tesseract image

我有一组非常小的图像(w:70-100; h:12-20),如下所示:

在此输入图像描述

在那些图像中,只有组成员的昵称.我想从简单的图像中读取文本,它们都有一个背景,只有昵称不同.那么,我对该图像做了什么:

在此输入图像描述

我使用下面的代码从第二个图像获取文本:

tesseract::TessBaseAPI ocr;
ocr.Init(NULL, "eng");
PIX* pix = pixRead("D:\\image.png");
ocr.SetImage(pix);
std::string result = ocr.GetUTF8Text();
Run Code Online (Sandbox Code Playgroud)

我有两个问题:

  1. ocr.GetUTF8Text();工作缓慢:650-750ms.图像很小,为什么它的工作时间如此之长?
  2. 从上面的图像我得到的结果如:"iwillkillsm","iwillkillsel"等.这个图像很简单,我相信tesseract大师能够100%准确地识别它.

    我应该怎么做图像/代码或者我应该阅读什么(以及在哪里)有关tesseract-ocr(文本速度和质量识别的东西)来解决这些问题?

nll*_*oyd 5

这听起来可能很奇怪,但是当我增加图像的尺寸时,我总是对 tesseract 有最好的运气。图像对我来说看起来“更糟”,但 tesseract 速度更快,准确度更高。

但是,在开始变得更糟的结果之前,您可以制作多大的图像是有限的:) 我想我记得过去拍摄 600 像素。不过,你必须玩它。