在文本中修正拼写错误的最佳算法

PWS*_*PWS 1 python string algorithm nlp pattern-matching

我有一个单词库列表和一个有拼写错误(错别字)的文本,我想根据库列表更正单词拼写错误是正确的

例如

在单词列表中:

listOfWord = [...,"halo","saya","sedangkan","semangat","cemooh"..];

这是我的字符串:

string = "haaallllllooo ssya sdngkan ceemoooh , smngat semoga menyenangkan"

我想改变spellerror是正确的,如:

string = "halo saya sedangkan cemooh, semangat semoga menyenangkan"

什么是检查列表中每个单词的最佳算法,因为我在列表中有数百万个单词并且有很多可能性

Jos*_*osh 6

这取决于您的数据存储方式,但您可能希望使用像Aho-Corasick这样的模式匹配算法.当然,这假设您的输入数据结构是Trie.A Trie是一个非常节省空间的存储容器,用于您可能感兴趣的单词(同样,取决于您的环境.)