相关疑难解决方法(0)

当样本量很大时,计算字符串相似度得分的有效方法?

假设您有一个包含10,000个电子邮件地址的列表,并且您希望找到此列表中一些最接近的"邻居" - 定义为与列表中其他电子邮件地址可疑接近的电子邮件地址.

我知道如何计算两个字符串之间的Levenshtein距离(由于这个问题),这将给我一个将一个字符串转换成另一个字符串需要多少操作的分数.

假设我将"可疑地接近另一个电子邮件地址"定义为Levenshtein得分小于N的两个字符串.

除了将每个可能的字符串与列表中的每个其他可能的字符串进行比较之外,是否有更有效的方法来查找分数低于此阈值的字符串对?换句话说,这种类型的问题可以更快地解决O(n^2)吗?

Levenshtein对这个问题的算法选择是不是很差?

string algorithm complexity-theory edit-distance cluster-analysis

15
推荐指数
3
解决办法
4180
查看次数

有没有办法计算2个字符串之间的%匹配

有没有办法计算2个字符串之间的%匹配?

我有一种情况,如果有85%,需要计算2个字符串之间的匹配

匹配然后我将结合2个表,我已经编写了组合2个表的代码

我的示例字符串是:

var str1 = 'i love javascript';
var str2 = 'i love javascripttt';

var matchPer = match(str1,str2); // result might be 80% , 85%, 90% ,95% etc
Run Code Online (Sandbox Code Playgroud)

javascript jquery edit-distance node.js levenshtein-distance

10
推荐指数
1
解决办法
750
查看次数