我正在尝试提取以下数字:http://img96.imageshack.us/img96/5630/aelgg.png
它失败了,我得到了〜作为回报.我正在使用谷歌的tesseract 2,使用C#(开源c#包装器),现在我想知道,这个图像太糟糕了,不能用于OCR吗?
因为数字是直的清晰.
你有没有其他的OCR引擎可以解决这个问题?
编辑
我也试过Asprise OCR(http://asprise.com/product/ocr/selector.php),但它也无法解析图像......
我建议调整大小.我在IE中将此页面缩放到200%,截取屏幕截图,将其打印为PDF并将其导入到使用tessnet的程序中.苔丝钉了它!除非我读错了#- :-)
虽然置信度= 140(如果你想知道,首选100以下).当然,当我尝试原始尺寸时,我没有得到〜; 我得到大约1/2的#s,一堆字母和其他垃圾.不够好,但更好.
t2似乎喜欢图像一定的大小.
我的程序进行处理以使其工作.建议使用.net GDI +转换为32位,使用插值模式调整高质量双立方.这似乎"填补了空白".
玩大小有效 - 我发现,太大或太小,并且tesseract表现不同.
这两个问题都是预处理,这很简单,你可以试试这个问题.但是,我知道如何调整大小和插值; 我不知道如何OCR!所以我愿意和解.