Gensim 中的 FastText

2 python gensim word2vec fasttext

我正在使用 Gensim 加载我的 fasttext.vec文件,如下所示。

m=load_word2vec_format(filename, binary=False)
Run Code Online (Sandbox Code Playgroud)

不过,我只是困惑,如果我需要加载.bin的文件来执行的命令一样m.most_similar("dog")m.wv.syn0m.wv.vocab.keys()等?如果是这样,该怎么做?

或者 .bin文件对于执行这种余弦相似度匹配并不重要?

请帮我!

小智 5

可以使用以下内容:

from gensim.models import KeyedVectors
model = KeyedVectors.load_word2vec_format(link to the .vec file)
model.most_similar("summer")
model.similarity("summer", "winter")
Run Code Online (Sandbox Code Playgroud)

现在使用该模型有很多选择。


小智 5

gensim-lib 已经发展,所以一些代码片段被弃用了。这是一个实际的工作解决方案:

import gensim.models.wrappers.fasttext
model = gensim.models.wrappers.fasttext.FastTextKeyedVectors.load_word2vec_format(Source + '.vec', binary=False, encoding='utf8')
word_vectors = model.wv
# -- this saves space, if you plan to use only, but not to train, the model:
del model

# -- do your work:
word_vectors.most_similar("etc") 
Run Code Online (Sandbox Code Playgroud)