Abe*_*ler 11 language-agnostic statistics
我需要在键盘上找到我正在处理的项目中常见错误键的列表.基本上我需要知道用户试图按什么键以及他们实际按下什么键,以及对这种情况发生频率的比较测量.
通过"比较衡量",我的意思是我希望能够说知道用户错误输入"c"键,他们更有可能点击"x"键而不是"v"键(基本上是"共性"下面的专栏".
我理想的列表如下所示,让您了解我在寻找什么.
Target Key Actual Key Commonness...
---------- ----------- -------------
v c 100
v b 95
c x 100
c v 90
Run Code Online (Sandbox Code Playgroud)
等等...
有没有人遇到任何可能提供此信息的信息来源?到目前为止我没有运气......
几年前我实际上不得不研究类似的问题.当我开始这个项目时,我不知道从哪里开始,所以希望我可以在相同的情况下拯救你一个人,有时候.
最重要的是,您可以利用在其他领域完成的大量工作.我发现,这些领域中最重要的是 域名注册.
例如,Site DomainTools有一个" Domain Typo Generator ",它根据你输入的父域名生成一个错字域名列表.
鉴于专业域名所有者(aks 擅自占地者)占任何注册商业务的很大一部分,很容易看出这个工具的用途是什么(即,擅自占地者有兴趣获取高流量域名的常见错别字 - 甚至是高流量域名的2%错误率是拼写错误域名的大量流量.
另外,我建议非常全面的2005年研究这个问题由微软研究院的.
最后,还有一个关键的概念,计算语言学从派生Levenshtein距离,称为Damerau-Levenshtein距离,它扩展了基本莱文斯坦的基本思路编辑距离人类在键盘上打字的特殊问题.
他在1964年的研究论文中得出的主要结论是,所有拼写错误中有80%可以用四种操作中的一种来描述 -插入,删除,替换单个字符或转换两个字符.
Damerau不仅区分了这四个编辑操作,还表示它们对应于所有人类拼写错误的80%以上.(我为DL提供的唯一链接是维基百科文章;我之所以这样做是因为我认为这是一个优秀而简短的介绍,它包含DL算法的伪代码,最后文章提供了链接DL的主要在线资源.