相关疑难解决方法(0)

余弦相似度与汉明距离

为了计算两个文档之间的相似性,我创建了一个包含术语频率的特征向量.但是,对于下一步,我不能在" 余弦相似度 "和" 汉明距离 " 之间做出决定.

我的问题:您对这些算法有经验吗？哪一个给你更好的结果？

除此之外:你能告诉我如何在PHP中编码余弦相似度吗？对于汉明距离,我已经得到了代码:

function check ($terms1, $terms2) {
    $counts1 = array_count_values($terms1);
    $totalScore = 0;
    foreach ($terms2 as $term) {
        if (isset($counts1[$term])) $totalScore += $counts1[$term];
    }
    return $totalScore * 500 / (count($terms1) * count($terms2));
}

Run Code Online (Sandbox Code Playgroud)

我不想使用任何其他算法.我只想帮助两者之间做出决定.

也许有人可以说一些如何改进算法.如果你过滤掉停用词或常用词,你会得到更好的结果吗？

我希望你能帮助我.提前致谢!

php similarity relationship

caw*_*caw

lucky-day

18
推荐指数

3
解决办法

1万
查看次数