是否有预先训练的doc2vec模型?

Idr*_*imi 7 gensim doc2vec

是否有一个预先训练的,具有大数据集的doc2vec模型,例如Wikipedia或类似模型?

goj*_*omo 6

我不知道有什么好的。这个项目有一个链接,但是:

  • 它基于来自较旧 gensim 的自定义分支,因此不会在最近的代码中加载
  • 目前还不清楚它是用什么参数或数据训练的,相关的论文可能对参数的影响做出了不知情的选择
  • 包含维基百科文章(超过 400 万条)或文章段落(数千万条)或大量词向量的实际文档向量似乎不合适,因此尚不清楚什么被丢弃了

虽然它需要很长时间和大量的工作 RAM,但有一个 Jupyter notebook 展示了Doc2Vec从 gensim 中包含的维基百科创建模型:

https://github.com/RaRe-Technologies/gensim/blob/develop/docs/notebooks/doc2vec-wikipedia.ipynb

因此,我建议您修复尝试中的错误。(而且,如果您成功创建了一个模型,并希望为其他人记录它,您可以将其上传到某个地方供其他人重复使用。)


Mon*_*iba 5

是的!我可以在此链接中找到两个预训练的 doc2vec 模型

但仍然找不到任何经过推文训练的预训练 doc2vec 模型