Spark MLLib的Word2Vec余弦相似度大于1

Question

在word2vec的spark实现中,当迭代次数或数据分区大于1时,由于某种原因,余弦相似度大于1.

据我所知,余弦相似度应始终约为-1 <cos <1.有谁知道为什么？

Answer 1

在findSynonyms的方法中word2vec，它不计算余弦相似度v1\xe3\x83\xbbvi / |v1| |vi|，而是计算v1\xe3\x83\xbbvi / |vi|，其中v1是查询词的向量，vi是候选词的向量。\n这就是为什么该值有时会超过 1。\n只是为了找到更接近的单词，它是不需要除以，|v1|因为它是常数。

\n

归档时间：	10 年，1 月前
查看次数：	1190 次
最近记录：	10 年，1 月前