use*_*168 5 nlp spell-checking machine-learning hunspell
我在寻找可以使用语言模型的拼写检查器。
我知道有很多不错的拼写检查器,例如Hunspell,但是正如我所见,它与上下文无关,因此它仅基于令牌的拼写检查器。
例如,
I lick eating banana
因此,在基于令牌的级别上,根本没有拼写错误,所有单词都是正确的,但句子中没有意义。但是,“智能”拼写检查器会认识到“舔”实际上是正确书写的单词,但可能是作者的意思是“喜欢”,因此句子中有含义。
我在特定领域中有一堆正确书写的句子,我想训练“智能”拼写检查器以识别拼写错误并学习语言模型,以便它甚至可以认为“舔”被正确书写,但是作者的意思是“喜欢”。
我看不到Hunspell具有这种功能,您能建议其他任何拼写检查工具吗?
请参阅Raphael Mudge 的“校对软件服务的设计”。他描述了他的方法的数据源(维基百科、博客等)和算法(基本上是比较概率)。该系统的源代码After the Deadline可用,但不再积极维护。