Gensim Word2Vec“在训练模型之前必须首先构建词汇”

Jon*_*ott 2 python nlp gensim word2vec

我正在尝试拟合 Word2Vec 模型。根据Gensim的Word2Vec的文档,我们在使用它之前不需要调用model.build_vocabulary它。但它却要求我这样做。我尝试过调用这个函数,但没有成功。我之前也装了一个Word2Vec模型,不需要调用model.build_vocabulary

难道我做错了什么?这是我的代码:

from gensim.models import Word2Vec
dataset = pd.read_table('genemap_copy.txt',delimiter='\t', lineterminator='\n')

def row_to_sentences(dataframe):
    columns = dataframe.columns.values
    corpus = []
    for index,row in dataframe.iterrows():
        if index == 1000:
            break
        sentence = ''
        for column in columns:
            sentence += ' '+str(row[column])
        corpus.append([sentence])
    return corpus

corpus = row_to_sentences(dataset)
clean_corpus = [[sentence[0].lower()] for sentence in corpus ]


# model = Word2Vec()
# model.build_vocab(clean_corpus)
model = Word2Vec(clean_corpus, size=100, window=5, min_count=5, workers=4)
Run Code Online (Sandbox Code Playgroud)

非常感谢帮助!我也在使用 macOS Sierra。网上关于将 Gensim 与 Mac D: 一起使用的支持并不多。

Jon*_*ott 5

我认为我的问题在于参数min_count=5,因此如果我的大部分单词出现次数不超过 5 次,它就不会考虑它们。