标签: levenshtein-distance

狮身人面像和"你的意思是......？" 建议的想法.它有用吗？

我正在尝试提出最快的搜索建议方法.起初我认为Levenstein UDF函数结合mysql表可以完成这项工作.但是使用levenshtein,mysql必须遍历表中的每一行(大量的单词),这会使查询真的变慢.

现在我最近安装并开始使用Sphinx(http://sphinxsearch.com/)进行全文搜索,主要是因为它的性能和与SphinxSE的紧密mysql集成.

所以我问自己是否可以使用sphinx以某种方式实现"你的意思"算法来提升性能,我想我发现了一个简单的算法.基本上我采取我想要纠正的所有关键字,在每个字母之间放一个空格,然后将它放在sphinx索引中.如果单词是'keyword',它就变成'keywor d'.现在,当用户输入一个单词时,我将其拆分为字母,并在sphinx索引中搜索与所提供的任何字母匹配的记录(我只需要一个).最好的部分是狮身人面像非常适合计算匹配行的相关性(权重),因此最佳匹配总是具有最大权重(我认为).它还会考虑单词(我的情况下的字母)位置,因此最佳匹配将按此顺序排列.

通过sphinx查询,我在关键字列表中得到了最相似的单词.然后我使用扩展的Levenshtain距离检查它,它考虑了重新排列的字母http://en.wikipedia.org/wiki/Damerau%E2%80%93Levenshtein_distance.如果字符串距离小于2(和!= 0),则建议单词.否则不建议任何事情.

我的想法有问题吗？我没想到的东西？任何预期的sphinx查询故障,以及与sphinx相关性计算的怪癖都没有给出最佳匹配？如果我在某处误会,请纠正我.

mysql sphinx keyword levenshtein-distance search-suggestion

sto*_*ker

2011 10-23

5
推荐指数

1
解决办法

3009
查看次数

PHP - 优化 - 具有优先级的Levenshtein距离

我试图用一点插件来实现levenshtein算法.我想优先考虑具有连续匹配字母的值.我已经尝试使用下面的代码实现我自己的形式:

function levenshtein_rating($string1, $string2) {
    $GLOBALS['lvn_memo'] = array();
    return lev($string1, 0, strlen($string1), $string2, 0, strlen($string2));
}

function lev($s1, $s1x, $s1l, $s2, $s2x, $s2l, $cons = 0) {
    $key = $s1x . "," . $s1l . "," . $s2x . "," . $s2l;
    if (isset($GLOBALS['lvn_memo'][$key])) return $GLOBALS['lvn_memo'][$key];

    if ($s1l == 0) return $s2l;
    if ($s2l == 0) return $s1l;

    $cost = 0;
    if ($s1[$s1x] != $s2[$s2x]) $cost = 1;
    else $cons -= 0.1;

    $dist = min(
                (lev($s1, $s1x + …

Run Code Online (Sandbox Code Playgroud)

php optimization levenshtein-distance

tey*_*non

2013 01-26

5
推荐指数

1
解决办法

841
查看次数

使用levenshtein距离的两个全文相似度

我有两个文本文件,我想比较.我做的是:

我把它们分成了句子.
我测量了一个文件中每个句子与第二个文件中每个句子之间的levenshtein距离.

我想计算这两个文本文件之间的平均相似度,但是我无法提供任何有意义的值 - 显然算术平均值(所有距离之和[标准化]除以比较次数)是一个坏主意.

如何解释这样的结果？

编辑:距离值已标准化.

algorithm statistics levenshtein-distance

use*_*055

2013 03-25

5
推荐指数

1
解决办法

8329
查看次数

php的levenshtein函数中的成本意味着比较字符串是什么意思？

我正在研究php的levenshtein函数,即使在提交的搜索词中存在拼写错误,也可以在小型redis实例中创建搜索以获得匹配.虽然大部分内容都是自我解释,但我很难弄清楚如何最好地使用这三个不同的cost参数.

int levenshtein ( string $str1 , string $str2 , int $cost_ins , int $cost_rep , int $cost_del )

Run Code Online (Sandbox Code Playgroud)

文档中有一个简短的解释

第二个变体将采用三个附加参数来定义插入,替换和删除操作的成本.这比变体1更通用和自适应,但效率不高.

但这并不能解决我的理解.有人可以解释我如何使用成本参数来改善结果/性能吗？

php levenshtein-distance

chr*_*con

2015 07-04

5
推荐指数

1
解决办法

618
查看次数

优化R代码,根据自定义距离函数创建距离矩阵

我正在尝试基于自定义距离函数为字符串创建距离矩阵(用于聚类).我在6000字的列表上运行代码,并且自上次90分钟后它仍在运行.我有8 GB RAM和Intel-i5,所以问题只在于代码.这是我的代码:

library(stringdist)
#Calculate distance between two monograms/bigrams
stringdist2 <- function(word1, word2)
{
    #for bigrams - phrases with two words
    if (grepl(" ",word1)==TRUE) {
        #"Hello World" and "World Hello" are not so different for me
        d=min(stringdist(word1, word2),
        stringdist(word1, gsub(word2, 
                          pattern = "(.*) (.*)", 
                          repl="\\2,\\1")))
    }
    #for monograms(words)
    else{
        #add penalty of 5 points if first character is not same
        #brave and crave are more different than brave and bravery
        d=ifelse(substr(word1,1,1)==substr(word2,1,1),
                            stringdist(word1,word2),
                            stringdist(word1,word2)+5)
    }   
    d
}
#create distance matrix
stringdistmat2 …

Run Code Online (Sandbox Code Playgroud)

string performance r edit-distance levenshtein-distance

Gau*_*hal

2015 09-02

5
推荐指数

1
解决办法

1137
查看次数

修改Levenshtein距离以忽略顺序

我正在计算包含最多6个值的序列之间的Levenshtein距离。这些值的顺序不应影响距离。

如何将其实现为迭代或递归算法？

例：

# Currently 
>>> LDistance('dog', 'god')
2

# Sorted
>>> LDistance('dgo', 'dgo')
0

# Proposed
>>> newLDistance('dog', 'god')
0

Run Code Online (Sandbox Code Playgroud)

'dog'和'god'具有完全相同的字母，在手之前对字符串进行排序将返回所需的结果。但是，这并非始终有效：

# Currently 
>>> LDistance('doge', 'gold')
3

# Sorted
>>> LDistance('dego', 'dglo')
2

# Proposed
>>> newLDistance('doge', 'gold')
1

Run Code Online (Sandbox Code Playgroud)

“ doge”和“ gold”具有3/4个匹配字母，因此应返回距离1。这是我当前的递归代码：

def mLD(s, t):
    memo = {}
    def ld(s, t):
        if not s: return len(t)
        if not t: return len(s)
        if s[0] == t[0]: return ld(s[1:], t[1:])
        if (s, t) not in memo:
            l1 = ld(s, t[1:]) …

Run Code Online (Sandbox Code Playgroud)

python algorithm edit-distance levenshtein-distance

Lui*_*uis

2017 05-23

5
推荐指数

1
解决办法

577
查看次数

用于比较电视节目标题的最合适的字符串距离算法是什么？

我正在为电视节目和其他媒体(游戏,电影等)编写刮刀,并不是所有来源的格式都与某个节目相同.例如,一个源可能表示带有破折号的字幕,其他分号.我目前正在使用Levenshtein距离将刮下的数据与从电视节目文件名中提取的数据进行比较,但我想知道该算法是否是针对短句长度而设计的.有没有更适合这种需求的算法？

string algorithm levenshtein-distance

ron*_*975

lucky-day

5
推荐指数

1
解决办法

93
查看次数