Mat 和 Pix 的不同 Tesseract 结果

Bjö*_*son 3 c++ ocr opencv tesseract leptonica

目标

使用 Tesseract 进行 OCR 时,使用 OpenCV 可以获得Mat与使用 Leptonica相同的质量结果。Pix

环境

C++17、OpenCV 3.4.1、Tesseract 3.05.01、Leptonica 1.74.4、Visual Studio Community 2017、Windows 10 专业版 64 位

描述

我正在使用 Tesseract 和 OCR,并发现了我认为奇怪的行为。

这是我的输入图像: OCR 的输入图像

这是我的代码:

#include "stdafx.h"
#include <iostream>
#include <opencv2/opencv.hpp>
#include <tesseract/baseapi.h>
#include <leptonica/allheaders.h>

#pragma comment(lib, "ws2_32.lib")

using namespace std;
using namespace cv;
using namespace tesseract;

void opencvVariant(string titleFile);
void leptonicaVariant(const char* titleFile);

int main()
{
    cout << "Tesseract with OpenCV and Leptonica" << endl;

    const char* titleFile = "raptor-companion-2.jpg";
    opencvVariant(titleFile);
    leptonicaVariant(titleFile);

    cout << endl;
    system("pause");
    return 0;
}

void opencvVariant(string titleFile) {

    cout << endl << "OpenCV variant..." << endl;

    TessBaseAPI ocr;
    ocr.Init(NULL, "eng");
    Mat image = imread(titleFile);
    ocr.SetImage(image.data, image.cols, image.rows, 1, image.step);

    char* outText = ocr.GetUTF8Text();
    int confidence = ocr.MeanTextConf();

    cout << "Text: " << outText << endl;
    cout << "Confidence: " << confidence << endl;
}

void leptonicaVariant(const char* titleFile) {

    cout << endl << "Leptonica variant..." << endl;

    TessBaseAPI ocr;
    ocr.Init(NULL, "eng");
    Pix *image = pixRead(titleFile);
    ocr.SetImage(image);

    char* outText = ocr.GetUTF8Text();
    int confidence = ocr.MeanTextConf();

    cout << "Text: " << outText << endl;
    cout << "Confidence: " << confidence << endl;
}
Run Code Online (Sandbox Code Playgroud)

方法opencvVariant基本leptonicaVariant相同,只是一个使用MatOpenCV 的类,另一个Pix使用 Leptonica 的类。然而,结果却截然不同。

OpenCV variant...
Text: Rapton


Confidence: 68

Leptonica variant...
Text: Raptor Companion


Confidence: 83
Run Code Online (Sandbox Code Playgroud)

正如在上面的输出中看到的,该Pix变体给出了比该变体更好的结果Mat。由于我的代码在 OCR 之前严重依赖 OpenCV 进行计算机视觉,因此 OCR 与 OpenCV 及其类配合良好对我来说至关重要。

问题

  • 为什么Pix给出的结果比 更好Mat,反之亦然?
  • 如何改变算法才能使Mat变体与变体一样高效Pix

Dmi*_* Z. 5

OpenCVimread函数默认将图像读取为彩色,这意味着您获得的像素为BGRBGRBGR....
在您的示例中,您假设 opencv 图像是灰度图像,因此有两种方法可以解决该问题:

  1. SetImage根据 opencv 图像中的通道数更改您的线路

    ocr.SetImage((uchar*)image.data, image.size().width, simageb.size().height, image.channels(), image.step1());

  2. 将 opencv 图像转换为 1 通道灰度图像

    cv::cvtColor(image, image, CV_BGR2GRAY);