Gensim Word2Vec“在训练模型之前必须首先构建词汇”

Question

Gensim Word2Vec“在训练模型之前必须首先构建词汇”

我正在尝试拟合 Word2Vec 模型。根据Gensim的Word2Vec的文档，我们在使用它之前不需要调用model.build_vocabulary它。但它却要求我这样做。我尝试过调用这个函数，但没有成功。我之前也装了一个Word2Vec模型，不需要调用model.build_vocabulary。

难道我做错了什么？这是我的代码：

from gensim.models import Word2Vec
dataset = pd.read_table('genemap_copy.txt',delimiter='\t', lineterminator='\n')

def row_to_sentences(dataframe):
    columns = dataframe.columns.values
    corpus = []
    for index,row in dataframe.iterrows():
        if index == 1000:
            break
        sentence = ''
        for column in columns:
            sentence += ' '+str(row[column])
        corpus.append([sentence])
    return corpus

corpus = row_to_sentences(dataset)
clean_corpus = [[sentence[0].lower()] for sentence in corpus ]


# model = Word2Vec()
# model.build_vocab(clean_corpus)
model = Word2Vec(clean_corpus, size=100, window=5, min_count=5, workers=4)

Run Code Online (Sandbox Code Playgroud)

非常感谢帮助！我也在使用 macOS Sierra。网上关于将 Gensim 与 Mac D: 一起使用的支持并不多。

Answer 1

Jon*_*ott 5

我认为我的问题在于参数min_count=5，因此如果我的大部分单词出现次数不超过 5 次，它就不会考虑它们。

归档时间：	7 年，4 月前
查看次数：	6877 次
最近记录：	7 年，4 月前