Tesseract OCR不会识别分区符号"÷"

Cra*_*ing 9 ocr tesseract objective-c ios

我在iOS 8中使用Tesseract作为基于OCR的应用程序,但它错误地将图像中的"÷"符号转换为加号"+"符号.

例如,这个图像

简单的算术表达

始终转换为文本字符串"8 + 4 + 4".它应该是"8 + 4÷4".

我尝试使用不同的训练数据语言文件"eng + equ","ita",将"÷"添加到白名单,将ocr_engine变量设置为立方体,将图像转换为灰度或黑白,将图像升迁2和4次.

我尝试过的所有内容总是返回加号"+"符号,而不是分号"÷"符号.

我尝试只使用"equ"训练的数据文件,并且DOES正确返回除法符号 - 但所有其他字符都是垃圾.

我一直在研究这个问题(谷歌,Stackoverflow)几天,但无法弄明白.

如何让Tesseract包含并识别除"÷"符号?

更新:

我能做的最好的事情是将AVCaptureSession预设设置为高

AVCaptureSession *session = [[AVCaptureSession alloc] init];
session.sessionPreset = AVCaptureSessionPresetHigh;
Run Code Online (Sandbox Code Playgroud)

尺寸以上的捕获图像则为676×405像素.使用Tesseract OCR UIImage类别(图像命名为"source")来对图像进行二值化:

// Binarize the source image to improve contrast (using the UIImage category provided by TesseractOCR)
UIImage *blackAndWhiteImage = [source blackAndWhite];
[self.tesseract setImage:blackAndWhiteImage];
Run Code Online (Sandbox Code Playgroud)

这通常会将除法符号转换为文本"-1-",但我看到" - : - "以及减号之间的其他数字和大写字符.

我可以在返回的文本中检查它.但是,不可能知道是否将返回的文本"8-1-2"视为真正的减法或"可能​​"除法.

Nee*_*enu 5

用不同的字体训练或引擎。

是训练引擎的工具。也看看这个

或者你可以使用JTessBoxEditor