如何获得 word2vec 词汇表中不存在的单词的向量？

Question

如何获得 word2vec 词汇表中不存在的单词的向量？

Jam*_*mes 6 python-3.x pandas gensim text-classification word2vec

我已经检查了之前的帖子链接，但它似乎不适用于我的情况：-

我已经预先训练过 word2vec 模型：

import gensim    
model = Word2Vec.load('w2v_model')

Run Code Online (Sandbox Code Playgroud)

现在我有一个带有关键字的熊猫数据框：

keyword
corruption
people
budget
cambodia
.......
......

Run Code Online (Sandbox Code Playgroud)

我只想在其相应的列中为每个关键字添加向量，但是当我使用model['cambodia']它时会抛出错误KeyError: "word 'cambodia' not in vocabulary"

所以我将关键字更新为：

model.train(['cambodia'])

Run Code Online (Sandbox Code Playgroud)

但这对我不起作用，当我使用 model['cambodia']

它仍然给出错误为KeyError: "word 'cambodia' not in vocabulary". 如何将新单词更新为 word2vec 词汇表，以便我可以获得它的向量？预期输出将是：-

keyword    V1         V2          V3         V4            V5         V6   
corruption 0.07397  0.290874    -0.170812   0.085428    -0.148551   0.38846 
people      ..............................................................
budget      ...........................................................

Run Code Online (Sandbox Code Playgroud)

Answer 1

Wei*_*hen 1

您可以将第一个向量初始化为 [0,0,...0]。而词汇表中没有的单词可以设置为0。

keyword    V1         V2          V3         V4            V5         V6  
0          0          0           0           0           0           0
1       0.07397  0.290874    -0.170812   0.085428    -0.148551   0.38846 
2      ..............................................................
3      ...........................................................

Run Code Online (Sandbox Code Playgroud)

您可以使用两个字典来解决问题。

word2id['corruption']=1 
vec['corruption']=[0.07397 0.290874 -0.170812 0.085428 -0.148551 0.38846]
 ...
word2id['cambodia']=0 
vec['cambodia']=[0 0 0 0 0 0]

Run Code Online (Sandbox Code Playgroud)

归档时间：	7 年，7 月前
查看次数：	754 次
最近记录：	7 年，6 月前