Tal*_*iss 41 python fuzzy-search machine-learning spelling
我在哪里可以找到一些真实的拼写错误统计数据?
我试图将人们的输入文本与内部对象进行匹配,人们往往会犯拼写错误.
有两种错误:
typos
- "Helllo"而不是"Hello"/"Satudray"而不是"Saturday"等. Spelling
- "Shikago"而不是"芝加哥" 我使用 Damerau-Levenshtein距离进行拼写错误,使用Double Metaphone进行拼写(Python实现此处和此处).
我想专注于Damerau-Levenshtein(或简单地说edit-distance
).教科书实现总是使用'1'来表示删除,插入替换和转置的权重.虽然这很简单并且允许很好的算法但它与"现实"/"真实世界概率"不匹配.
例子:
删除,插入,替换和转置的"真实世界"权重应该是什么?
即使是Norvig非常酷的拼写校正器也使用非加权编辑距离.
BTW-我确定权重需要是函数而不是简单的浮点数(根据上面的例子)......
我可以调整算法,但在哪里可以"学习"这些权重?我无法访问Google规模的数据 ...
我应该猜猜他们吗?
编辑 - 尝试回答用户问题:
tsz*_*ing 14
真实世界拼写错误统计的可能来源是维基百科的完整编辑历史.
http://download.wikimedia.org/
此外,您可能对AWB的RegExTypoFix感兴趣
http://en.wikipedia.org/wiki/Wikipedia:AWB/T
归档时间: |
|
查看次数: |
6877 次 |
最近记录: |