这更多的是一个算法问题 - 我不太懂数学,所以正在寻找一个工程解决方案......如果这与主题无关,请告诉我,我将删除该问题。
我创建了一个开源软件的混搭,可以在困难的背景上进行光学字符识别:https://github.com/metalaureate/tesseract-docker-ocr
我想用它来扫描带有预定义ID代码的标签,例如2826672。数字的准确度约为70%。
问题:如何以编程方式向代码中添加冗余以将准确度提高到 99%,以及如何对其进行解码?我可以想象一些非常笨拙的方法,比如将数字加倍和反转,但我不知道如何以尊重信息论的方式做到这一点,而无需翻译大量数学。
如何添加和解码数字以纠正 OCR 错误?