应用 word2vec 查找所有高于相似度阈值的单词

sss*_*s90 5 gensim word2vec

命令 model.most_similar(positive=['france'], topn=100) 给出与“france”最相似的前 100 个单词。但是,我想知道是否有一种方法可以将超过相似度阈值的最相似的词输出到给定的词。有没有类似下面的方法?:model.most_similar(positive=['france'], threshold=0.9)

goj*_*omo 3

不,您必须请求大量(或全部,带有topn=0),然后自己应用截止值。

理论上,您所要求的内容可以作为选项添加。

然而,余弦相似度的绝对大小不一定具有稳定的含义,例如不同模型运行中的“90% 相似”。它们的分布可能会根据模型训练参数(例如向量 )而变化size,并且它们通常仅在与同一模型中的其他成对值进行排序比较时进行解释。

例如,在具有不同训练参数的模型中,“冷”的前 100 个最相似词的组成可能非常相似,但 #1 到 #100 个词的绝对相似度值的范围可能截然不同。因此,如果您选择绝对阈值,您可能希望根据观察模型或与其他模型训练元参数一起改变截止值。