PWS*_*PWS 1 python string algorithm nlp pattern-matching
我有一个单词库列表和一个有拼写错误(错别字)的文本,我想根据库列表更正单词拼写错误是正确的
例如
在单词列表中:
listOfWord = [...,"halo","saya","sedangkan","semangat","cemooh"..];
这是我的字符串:
string = "haaallllllooo ssya sdngkan ceemoooh , smngat semoga menyenangkan"
我想改变spellerror是正确的,如:
string = "halo saya sedangkan cemooh, semangat semoga menyenangkan"
什么是检查列表中每个单词的最佳算法,因为我在列表中有数百万个单词并且有很多可能性
这取决于您的数据存储方式,但您可能希望使用像Aho-Corasick这样的模式匹配算法.当然,这假设您的输入数据结构是Trie.A Trie是一个非常节省空间的存储容器,用于您可能感兴趣的单词(同样,取决于您的环境.)