Tesseract OCR:如何找到每个返回字符的读取错误大小？

Question

我在iPhone应用程序中使用Tesseract OCR引擎从账单发票照片中读取特定的数字字段.使用大量的照片预处理(自适应阈值处理,伪像清理等),结果最终相当准确,但仍有一些情况我想改进.

如果用户在低光条件下拍摄照片并且图片中存在一些噪声或伪影,则OCR引擎会将这些伪像解释为附加数字.在一些后方的情况下,它可以读取例如"32,15"EUR的数字量为"5432,15"EUR,这对于最终用户对产品的信心并不是很好.

我假设,如果有一个内部OCR引擎读取错误与每个字符读取相关联,它将在我之前示例的"54"数字上更高,因为它们在小噪声像素上被识别,并且如果我有权访问这个读数错误值我将能够轻松地丢弃错误的数字.

您是否知道有任何方法可以获得从tesseract OCR引擎返回的每个字符的读取误差幅度(或任何"精度因子"值)？

Answer 1

在 Tesseract 术语中，它被称为“置信度”值。在tesseract-ocr Group中搜索该术语会发现许多提到 TesseractExtractResult 方法的答案。

hOCR输出也包含该值。