如何在Python中获得字符串与另一个字符串类似的概率?
我想获得像0.9(意味着90%)等十进制值.最好使用标准的Python和库.
例如
similar("Apple","Appel") #would have a high prob.
similar("Apple","Mango") #would have a lower prob.
Run Code Online (Sandbox Code Playgroud) 我正在寻找一种字符串相似度算法,它可以在变长字符串上产生比通常建议的更好的结果(levenshtein距离,soundex等).
例如,
鉴于字符串A:"罗伯特",
然后是字符串B:"Amy Robertson"
会比一个更好的比赛
字符串C:"理查德"
此外,优选地,该算法应该是语言不可知的(也可以用于除英语之外的语言).
OpenCV是否支持两个图像的比较,返回一些值(可能是百分比),表示这些图像有多相似?例如,如果相同的图像被传递两次将返回100%,如果图像完全不同则将返回0%.
我已经在StackOverflow上阅读了很多类似的主题.我也做了一些谷歌搜索.可悲的是,我无法想出一个令人满意的答案.
从Python:tf-idf-cosine:为了找到文档相似性,可以使用tf-idf余弦计算文档相似度.没有导入外部库,是否有任何方法可以计算2个字符串之间的余弦相似度?
s1 = "This is a foo bar sentence ."
s2 = "This sentence is similar to a foo bar sentence ."
s3 = "What is this string ? Totally not related to the other two lines ."
cosine_sim(s1, s2) # Should give high cosine similarity
cosine_sim(s1, s3) # Shouldn't give high cosine similarity value
cosine_sim(s2, s3) # Shouldn't give high cosine similarity value
Run Code Online (Sandbox Code Playgroud) 如何查询按相似性排序的记录?
例如.搜索"股票溢出"将返回
例如.搜索"LO"将返回:
LIKE 返回更好的结果,但对于长查询不返回任何内容,尽管存在类似的字符串
我正在寻找一种方法来比较字符串和字符串数组.当然,进行精确搜索非常容易,但我希望我的程序能够容忍拼写错误,缺少部分字符串等等.
是否有某种框架可以执行这样的搜索?我有一些想法,搜索算法将返回一些结果顺序的匹配百分比或类似的东西.
我在数据库中有很多文章(标题,文字),我正在寻找一种算法来找到X最相似的文章,比如Stack Overflow的"相关问题",当你提出问题时.
我尝试谷歌搜索,但只找到关于其他"类似文本"问题的页面,比如将每篇文章与所有其他文章进行比较并在某处存储相似性.因此,我只是在我刚输入的文本上"实时"执行此操作.
怎么样?
我需要计算2个字符串之间的相似度.那究竟是什么意思呢?让我用一个例子来解释一下:
hospitalhaspita现在我的目标是确定修改错误单词以获得真实单词所需的字符数.在这个例子中,我需要修改2个字母.那么百分比是多少?我总是把真正的词长度.因此它变为2/8 = 25%所以这两个给定的字符串DSM是75%.
如何以性能为关键考虑因素来实现这一目标?
我花了很多时间研究一个允许我用Java比较图像的库.
我真的没有找到任何有用的东西,也许我的GoogleSearch技能不够高,所以我想我会问你们,如果你能指出我可以找到类似这样的方向.
基本上我想要做的是将两个图像相互比较,得到两个相似的值.像一个百分比左右.
我希望你们有一些我可以使用的东西,我不知道怎么写自己这样的东西......
PS:它不一定是Java,只是我的应用程序将运行的环境.
给定稀疏矩阵列表,计算矩阵中每列(或行)之间的余弦相似度的最佳方法是什么?我宁愿不迭代n次选择两次.
说输入矩阵是:
A=
[0 1 0 0 1
0 0 1 1 1
1 1 0 1 0]
Run Code Online (Sandbox Code Playgroud)
稀疏表示是:
A =
0, 1
0, 4
1, 2
1, 3
1, 4
2, 0
2, 1
2, 3
Run Code Online (Sandbox Code Playgroud)
在Python中,使用矩阵输入格式很简单:
import numpy as np
from sklearn.metrics import pairwise_distances
from scipy.spatial.distance import cosine
A = np.array(
[[0, 1, 0, 0, 1],
[0, 0, 1, 1, 1],
[1, 1, 0, 1, 0]])
dist_out = 1-pairwise_distances(A, metric="cosine")
dist_out
Run Code Online (Sandbox Code Playgroud)
得到:
array([[ 1. , 0.40824829, 0.40824829],
[ …Run Code Online (Sandbox Code Playgroud)