将向量加载到 gensim Word2Vec 模型中 - 不是 KeyedVectors

Wmb*_*uch 6 nlp machine-learning gensim word2vec word-embedding

我正在尝试将一些预先训练的向量加载到 gensimWord2Vec模型中,以便可以使用新数据重新训练它们。我的理解是我可以用 进行再培训gensim.Word2Vec.train()。然而,我能找到的加载向量的唯一方法是gensim.models.KeyedVectors.load_word2vec_format('path/to/file.bin', binary=True)创建一个通常是模型wv属性的对象gensim.Word2Vec。但是这个对象本身没有方法train(),而这正是我重新训练向量所需的方法。

那么如何将这些向量转化为实际gensim.Word2Vec模型呢?

Max*_*xim 1

Word2Vec.load并未弃用,因此您可以使用它,假设您的预训练模型已使用Word2Vec.save.

# Train and save the model
model = Word2Vec(size=100, window=4, min_count=5, workers=4)
model.build_vocab(sentences)
model.train(sentences, total_examples=model.corpus_count, epochs=50)
model.save('word-vectors.bin')

...

# Later in another script: load and continue training
model = Word2Vec.load('word-vectors.bin')
model.train(sentences, total_examples=model.corpus_count, epochs=50)
Run Code Online (Sandbox Code Playgroud)