小编J. *_*ins的帖子

Gensim Doc2Vec Most_Similar

我在使用 Gensim 的 Doc2Vec 模型中的 most_similar 方法时遇到了麻烦。当我运行 most_similar 时，我只得到前 10 个标记文档的相似性（基于它们的标签——总是从 0-9）。对于此代码，我有 topn=5，但我使用了 topn=len(documents) 并且我仍然只获得前 10 个文档的相似度

标记文件：

tokenizer = RegexpTokenizer(r'\w+')
taggeddoc=[]

for index,wod in enumerate(model_data):
    wordslist=[]
    tagslist=[]
    tokens = tokenizer.tokenize(wod)

    td = TaggedDocument(gensim.utils.to_unicode(str.encode(' '.join(tokens))).split(), str(index)) 
    taggeddoc.append(td)

documents=taggeddoc

Run Code Online (Sandbox Code Playgroud)

实例化模型：

model=gensim.models.Doc2Vec(documents, dm=0, dbow_words=1, iter=1, alpha=0.025, min_alpha=0.025, min_count=10)

Run Code Online (Sandbox Code Playgroud)

训练模型：

for epoch in range(100):
    if epoch % 10 == 0:
        print("Training epoch {}".format(epoch))
    model.train(documents, total_examples=model.corpus_count, epochs=model.iter)
    model.alpha -= 0.002
    model.min_alpha = model.alpha

Run Code Online (Sandbox Code Playgroud)

问题在这里（我认为）：

new = model_data[100].split()
new_vector = model.infer_vector(new)
sims = model.docvecs.most_similar([new_vector], topn=5) …

Run Code Online (Sandbox Code Playgroud)

python nlp gensim deep-learning doc2vec

J. *_*ins

lucky-day

0
推荐指数

1
解决办法

2829
查看次数

标签统计

deep-learning ×1

doc2vec ×1

gensim ×1

nlp ×1

python ×1

Gensim Doc2Vec Most_Similar

标签 统计

小编J. _ins的帖子

标签统计