yoe*_*sef 5 sql t-sql sql-server string-matching sql-server-2012
所以,我正在考虑在我的公司实现模糊逻辑匹配,并且无法获得良好的结果.对于初学者,我试图将公司名称与其他公司提供的名单上的名称相匹配.
我的第一次尝试是使用soundex,但看起来soundex只比较公司名称中的前几个声音,因此较长的公司名称太容易相互混淆.
我现在正在使用levenstein距离比较进行第二次尝试.它看起来很有希望,特别是如果我先删除标点符号.但是,我仍然无法在没有太多误报的情况下找到重复项.
我遇到的一个问题是像widgetsco vs widgets inc这样的公司.所以,如果我比较短名称长度的子串,我也会收到像BBC大学和CBC大学校园这样的东西.我怀疑使用距离和最长公共子串的组合得分可能是解决方案.
有没有人设法建立一个与有限误报匹配的算法?
小智 0
您想要使用诸如 Levenshtein Distance 或其他字符串比较算法之类的算法。您可能想在 Codeplex 上查看这个项目。
http://fuzzystring.codeplex.com/