小编Mic*_*ael的帖子

用于字符串相似性比较的N-gram分割函数

作为更好地理解我目前正在学习的F#的一部分,我编写了将给定字符串拆分为n-gram的函数.
1)我想收到有关我的功能的反馈:这可以更简单或更有效地编写吗？

2)我的总体目标是编写基于n-gram相似性返回字符串相似度(在0.0 ... 1.0范围内)的函数; 这种方法是否适用于短字符串比较,或者这种方法可以可靠地用于比较大字符串(例如文章).

3)我知道n-gram比较忽略了两个字符串的上下文.你建议用什么方法来实现我的目标？

//s:string - target string to split into n-grams
//n:int - n-gram size to split string into
let ngram_split (s:string, n:int) =
    let ngram_count = s.Length - (s.Length % n)
    let ngram_list = List.init ngram_count (fun i ->
        if( i + n >= s.Length ) then
        s.Substring(i,s.Length - i) + String.init ((i + n) - s.Length)
            (fun i -> "#")
        else
            s.Substring(i,n)
    )
    let ngram_array_unique = ngram_list
                            |> Seq.ofList
                            |> Seq.distinct
                            |> Array.ofSeq

//produce …

Run Code Online (Sandbox Code Playgroud)

f# n-gram

Mic*_*ael

2010 05-25

1
推荐指数

1
解决办法

2823
查看次数

标签统计

f# ×1

n-gram ×1

用于字符串相似性比较的N-gram分割函数

标签 统计

小编Mic_ael的帖子

标签统计