根据字母查找相似单词的算法

Her*_*rka 0 algorithm machine-learning data-mining

我正在寻找一种基于共享字母检测单词(文本字符串)相似性的方法.

我正在研究Hash函数,尤其是Rabin-Karp算法,以便在更大的字符串中找到类似的单词.

但它并不适用于我想要的案例:在我的案例中,基于德国银行,我认为"类似"的三个例子:"德意志银行","邮政银行"和"兰德银行".这三个人的名字中都有"银行"字样,但只有德意志银行将其作为单个字.因此,基本上根据共享字符来衡量单词的相似性.我认为应该有一个限制,如果可能的话,只应考虑≥4个字符的相似之处.

如果我只是在寻找"银行"这个词,我会硬编码.但我正在寻找一种方法来找到这样的相似名称/字符串,而不是首先知道它.

小智 5

如果我错了,请纠正我.从你的问题,我知道你需要找到所有有共同点的字符串.

我们可以在所有字符串之间找到常见的SubStrings.根据Substring的长度,我们可以给出一个分数.根据阈值,您可以决定字符串是否属于同一组.