使用Ruby测量两个字符串之间的距离?

Cai*_*ifa 24 ruby string function

我可以用Ruby测量两个字符串之间的距离吗?

即:

compare('Test', 'est') # Returns 1
compare('Test', 'Tes') # Returns 1
compare('Test', 'Tast') # Returns 1
compare('Test', 'Taste') # Returns 2
compare('Test', 'tazT') # Returns 5
Run Code Online (Sandbox Code Playgroud)

Mic*_*nzl 25

由于本机C绑定,更容易和更快:

gem install levenshtein-ffi
gem install levenshtein

require 'levenshtein'

Levenshtein.normalized_distance string1, string2, threshold
Run Code Online (Sandbox Code Playgroud)

http://rubygems.org/gems/levenshtein http://rubydoc.info/gems/levenshtein/0.2.2/frames

  • 请注意,这不处理 Unicode(撰写本文时为 levensthein-ffi gem) (2认同)

Hug*_*lio 24

我找到了这个给你:

def levenshtein_distance(s, t)
  m = s.length
  n = t.length
  return m if n == 0
  return n if m == 0
  d = Array.new(m+1) {Array.new(n+1)}

  (0..m).each {|i| d[i][0] = i}
  (0..n).each {|j| d[0][j] = j}
  (1..n).each do |j|
    (1..m).each do |i|
      d[i][j] = if s[i-1] == t[j-1]  # adjust index into string
                  d[i-1][j-1]       # no operation required
                else
                  [ d[i-1][j]+1,    # deletion
                    d[i][j-1]+1,    # insertion
                    d[i-1][j-1]+1,  # substitution
                  ].min
                end
    end
  end
  d[m][n]
end

[ ['fire','water'], ['amazing','horse'], ["bamerindos", "giromba"] ].each do |s,t|
  puts "levenshtein_distance('#{s}', '#{t}') = #{levenshtein_distance(s, t)}"
end
Run Code Online (Sandbox Code Playgroud)

这是非常棒的输出:=)

levenshtein_distance('fire', 'water') = 4
levenshtein_distance('amazing', 'horse') = 7
levenshtein_distance('bamerindos', 'giromba') = 9
Run Code Online (Sandbox Code Playgroud)

资料来源:http://rosettacode.org/wiki/Levenshtein_distance#Ruby


Nak*_*lon 15

在Rubygems中有一个实用方法实际上应该是公共的但不是,不管怎么说:

require "rubygems/text"
ld = Class.new.extend(Gem::Text).method(:levenshtein_distance)

p ld.call("asd", "sdf") => 2
Run Code Online (Sandbox Code Playgroud)

  • 如果包含该模块,则可以说它已经公开。在您的代码中包含`Gem :: Text`,然后像这样使用它:`levenshtein_distance('asd','sdf')` (2认同)
  • `Gem::Text` 的文档在这里: https://ruby-doc.org/stdlib/libdoc/rubygems/rdoc/Gem/Text.html @JeromeDalbert 所说的 `include` 方式对于大多数用途来说是最方便的,而 @Nakilon 的答案是最完整的,因为它避免了命名空间冲突的任何可能性。 (2认同)

Dig*_*oss 14

更简单的是,我有时会露出红宝石......

# Levenshtein distance, translated from wikipedia pseudocode by ross

def lev s, t
  return t.size if s.empty?
  return s.size if t.empty?
  return [ (lev s.chop, t) + 1,
           (lev s, t.chop) + 1,
           (lev s.chop, t.chop) + (s[-1, 1] == t[-1, 1] ? 0 : 1)
       ].min
end
Run Code Online (Sandbox Code Playgroud)

  • 这可能很慢,但如果你想调整代码来计算Levenshtein距离而不是字符串(例如,单词列表),那么这是一个很好的起点. (4认同)
  • 这个答案闻起来最红宝石.FTW的递归和斩波! (3认同)
  • 这是一个很酷的小演示,但**不适合制作.试试`lev"123456789123456789","123456789"`... (2认同)

pfa*_*fac 7

Ruby 2.3 及更高版本附带did_you_meangem,其中包括DidYouMean::Levenshtein.distance. 适用于大多数情况,默认可用。

DidYouMean::Levenshtein.distance("Test", "est") # => 1
Run Code Online (Sandbox Code Playgroud)


dim*_*mus 5

我制作了一个damerau-levenshtein gem,其中算法是用 C 实现的

require "damerau-levenshtein"
dl = DamerauLevenshtein
dl.distance("Something", "Smoething") #returns 1
Run Code Online (Sandbox Code Playgroud)