这就是为什么这是超级雄心勃勃的原因。OCR 所做的基本上是获取一组有限的点,并尝试将其与非常小的集合中的多个成员中的一个进行匹配。你所说的更多是在成语层面而不是人物层面。例如,如果我将贝叶斯规则表示为方程,我会得到如下结果:
P(A|B) = P(B|A)P(A)/P(B)
Run Code Online (Sandbox Code Playgroud)
即使它成功地识别了每个字符,您也必须让它将方程中的特征修补到方程组中。更不用说,这只是贝叶斯规则的一种表示。还有其他一些使用 Sigma 表示法(拉普拉斯的变体),还有一些使用对数,因此它们不必使用特殊情况的 0。
顺便说一句,这可以通过贝叶斯来完成。以下是对此的一些想法:
这就是 90% 的垃圾邮件引擎的工作方式,但是它们只有两种分类:垃圾邮件和非垃圾邮件,并且特征表示非常简单:仅仅是单词在不同文档类型中出现的比率。
有趣的问题,肯定没有简单的答案。