我有大量来自19世纪的英文OCRed文档,并希望通过使用上下文拼写检查来清理一些OCR错误,例如Peter Norvig在http://norvig.com/spell-correct提出的算法..html.我的主要目标是能够使用概率模型(连同ocred文本数据和适当的大词典)来纠正错误拼写的单词.
我很高兴使用Norvig在他的网站上提供的代码并对其进行改进,但在此之前,我想问一下是否有一个开源解决方案.Norivg本人建议看看aspell,但我不认为aspell是一个上下文拼写检查器,我担心它可能在OCR纠错方面效果不好.