OCR最好的开源拼写检查程序?

Ast*_*rix 6 ocr spell-checking aspell

我有大量来自19世纪的英文OCRed文档,并希望通过使用上下文拼写检查来清理一些OCR错误,例如Peter Norvig在http://norvig.com/spell-correct提出的算法..html.我的主要目标是能够使用概率模型(连同ocred文本数据和适当的大词典)来纠正错误拼写的单词.

我很高兴使用Norvig在他的网站上提供的代码并对其进行改进,但在此之前,我想问一下是否有一个开源解决方案.Norivg本人建议看看aspell,但我不认为aspell是一个上下文拼写检查器,我担心它可能在OCR纠错方面效果不好.

hac*_*rb9 0

那么,您正在寻找一个拼写检查器,每当出现不理解的短语或单词时,它都会替换最可能的选择?对于 19c 文本来说,这似乎是一个坏主意,除非您有大量此类文本的语料库,并且这些文本已经经过手工拼写检查。那些当时很常见但现在很少见的词语将在你不知情的情况下被替换。我敢说,你可能会发现一个受过现代用语训练的上下文拼写检查器会被戒掉。\xe2\x98\xba

\n\n

如果您有这样一个语料库,或者您准备创建一个语料库,那么有一个强大的基于 Python 的 OCR 和分析工具,称为OCRopus。它使用自然语言处理、神经网络和许多其他流行语 \xe2\x80\x94 我想我在待办事项列表上看到了“深度学习”。它看起来并不容易使用,尽管我承认我自己从未尝试过。它似乎需要命令行和 Python 编程技能。如果您仍然不畏惧,那么它可能正是您正在寻找的。

\n\n

另一方面,如果您正在寻找更简单的东西,请考虑使用带有标准拼写检查器的程序。例如,gImageReader可以读取您的 PDF 文件,对其进行 OCR,并让您更正和添加它不认识的单词。我建议在搜索更复杂的内容之前至少尝试一个简单的拼写检查器。

\n\n

gImageReader 对单词“?RND(1);”进行拼写检查的屏幕截图

\n