如何获取已识别字符的坐标

Question

我有一个基于Tesseract的非常简单的OCR应用程序.在识别步骤之后,我还提供用户验证步骤,以便在OCR错误的情况下进行校正.为了改善用户界面,我计划在原始输入图像上的OCR-ed字符顶部绘制一个矩形,并将其与OCR输出并排放置.为此,我需要识别字符的坐标.

我试过这样的东西,但它似乎给了我胡言乱语:

   ETEXT_DESC output;
   tess->Recognize(&output);
   text = tess->GetUTF8Text();

现在,如果我访问output-> count,它会给我一些超过10,000的值,这显然是错误的,因为整个图像只有20个左右的字符.

我是在正确的轨道上吗？我可以指点方向吗？

Answer 1

也许获得盒子的坐标是有帮助的.尝试tesseract的可执行文件.使用该命令

"tesseract.exe [图片] [输出] makebox"

毕竟你得到每个角色的坐标,每行一个.然后你就可以比较了.