Spark MLLib的Word2Vec余弦相似度大于1

Jas*_*Xie 5 machine-learning neuroscience word2vec

http://spark.apache.org/docs/latest/mllib-feature-extraction.html#word2vec

在word2vec的spark实现中,当迭代次数或数据分区大于1时,由于某种原因,余弦相似度大于1.

据我所知,余弦相似度应始终约为-1 <cos <1.有谁知道为什么?

小智 4

findSynonyms的方法中word2vec,它不计算余弦相似度v1\xe3\x83\xbbvi / |v1| |vi|,而是计算v1\xe3\x83\xbbvi / |vi|,其中v1是查询词的向量,vi是候选词的向量。\n这就是为什么该值有时会超过 1。\n只是为了找到更接近的单词,它是不需要除以,|v1|因为它是常数。

\n