决定2个字符串是否"足够相似"的好指标是什么?

Hri*_*sto 23 java similarity string-matching levenshtein-distance

我正在研究一个非常粗略的初稿算法,以确定2个字符串的相似程度.我也使用Levenshtein Distance来计算字符串之间的编辑距离.

我目前正在做的是基本上采用编辑总数并将其除以较大字符串的大小.如果该值低于某个阈值,当前随机设置为25%,则它们"足够相似".

然而,这完全是任意的,我不认为这是计算相似性的一种非常好的方法.是否有某种数学方程或概率/统计方法来获取Levenshtein距离数据并使用它来说"是的,根据所做的编辑数量和字符串的大小,这些字符串是否足够相似"?

此外,关键是我使用任意阈值,我宁愿不这样做.如何计算此阈值而不是分配它,以便我可以安全地说2个字符串"足够相似"

UPDATE

我正在比较代表Java堆栈跟踪的字符串.我想这样做的原因是通过相似性对一堆给定的堆栈跟踪进行分组,并将其用作过滤器来对"东西"进行排序:)这种分组对于我无法公开分享的更高级别的原因很重要.


到目前为止,我的算法(伪代码)大致如下:

/*
 * The input lists represent the Strings I want to test for similarity. The
 * Strings are split apart based on new lines / carriage returns because Java
 * stack traces are not a giant one-line String, rather a multi-line String.
 * So each element in the input lists is a "line" from its stack trace.
 */
calculate similarity (List<String> list1, List<String> list2) {

    length1 = 0;
    length2 = 0;
    levenshteinDistance = 0;

    iterator1 = list1.iterator();
    iterator2 = list2.iterator();

    while ( iterator1.hasNext() && iterator2.hasNext() ) {

        // skip blank/empty lines because they are not interesting
        str1 = iterator1.next();    length1 += str1.length();
        str2 = iterator2.next();    length2 += str2.length();

        levensteinDistance += getLevenshteinDistance(str1, str2);
    }

    // handle the rest of the lines from the iterator that has not terminated

    difference = levenshteinDistance / Math.max(length1, length2);

    return (difference < 0.25) ? true : false; // <- arbitrary threshold, yuck!
}
Run Code Online (Sandbox Code Playgroud)

Tud*_*dor 20

如何使用余弦相似度?这是评估两个文本之间相似性的一般技术.它的工作原理如下:

从两个字符串中取出所有字母,构建一个如下表格:

Letter | String1 | String2
Run Code Online (Sandbox Code Playgroud)

这可以是一个简单的哈希表或其他什么.

在字母列中,将每个字母和字符串列中的频率放在该字符串中(如果字母中没有出现字母,则值为0).

它被称为余弦相似性,因为您将两个字符串列中的每一个都解释为向量,其中每个组件都是与字母关联的数字.接下来,计算向量之间"角度"的余弦值:

C = (V1 * V2) / (|V1| * |V2|)
Run Code Online (Sandbox Code Playgroud)

分子是点积,即相应分量的乘积之和,分母是矢量大小的乘积.

C与1的接近程度可以看出字符串的相似程度.

它可能看起来很复杂,但一旦你理解了这个想法,它只需要几行代码.

让我们看一个例子:考虑字符串

s1 = aabccdd
s2 = ababcd
Run Code Online (Sandbox Code Playgroud)

该表看起来像:

Letter a b c d
s1     2 1 2 2
s2     2 2 1 1
Run Code Online (Sandbox Code Playgroud)

因此:

C = (V1 * V2) / (|V1| * |V2|) = 
(2 * 2 + 1 * 2 + 2 * 1 + 2 * 1) / (sqrt(13) * sqrt(10)) = 0.877
Run Code Online (Sandbox Code Playgroud)

所以它们"非常"相似.