加载预先计算的向量Gensim

MEr*_*ric 18 python nlp gensim word2vec

我使用Gensim Python包来学习神经语言模型,我知道你可以提供一个训练语料库来学习模型.然而,已经存在许多以文本格式可用的预计算单词向量(例如http://www-nlp.stanford.edu/projects/glove/).有没有办法初始化一个只使用一些预先计算的向量的Gensim Word2Vec模型,而不是从头开始学习向量?

谢谢!

Cha*_*ade 36

来自斯坦福站点的GloVe转储的格式与word2vec格式略有不同.您可以使用以下命令将GloVe文件转换为word2vec格式:

python -m gensim.scripts.glove2word2vec --input  glove.840B.300d.txt --output glove.840B.300d.w2vformat.txt
Run Code Online (Sandbox Code Playgroud)

  • 适用于 MacOS 10.13 (2认同)

Ste*_*ios 21

您可以从这里下载预先训练过的单词向量(获取文件'GoogleNews-vectors-negative300.bin'): word2vec

解压缩文件然后你可以在python中加载它:

model = gensim.models.word2vec.Word2Vec.load_word2vec_format(os.path.join(os.path.dirname(__file__), 'GoogleNews-vectors-negative300.bin'), binary=True)

model.most_similar('dog')
Run Code Online (Sandbox Code Playgroud)

编辑(2017年5月):由于上面的代码现已弃用,现在就是你加载向量的方法:

model = gensim.models.KeyedVectors.load_word2vec_format(os.path.join(os.path.dirname(__file__), 'GoogleNews-vectors-negative300.bin'), binary=True)
Run Code Online (Sandbox Code Playgroud)