小编San*_*ath的帖子

如何在python中具有相似性分数的大字符串中找到相似的子字符串?

我正在寻找的不仅仅是两个文本之间的简单相似度分数。但是字符串中子字符串的相似度得分。说:

text1 = 'cat is sleeping on the mat'.

text2 = 'The cat is sleeping on the red mat in the living room'.
Run Code Online (Sandbox Code Playgroud)

在上面的例子中,所有的词text1都存在于text2完全中,因此相似度应该是 100%。

如果text1缺少某些单词,则得分会更低。

我正在处理一个不同段落大小的大型数据集,因此在具有这种相似性得分的较大段落中找到较小的段落至关重要。

我只发现了比较两个字符串的字符串相似性,例如余弦相似性、difflib 相似性等。但不是关于另一个字符串中的子字符串分数。

python string nlp distance similarity

3
推荐指数
1
解决办法
3093
查看次数

标签 统计

distance ×1

nlp ×1

python ×1

similarity ×1

string ×1