Ver*_*era 1 python numpy gensim doc2vec
如果我想使用本网站https://github.com/jhlau/doc2vec 中预先训练的 doc2vec 模型,有谁知道我应该使用哪个函数?
我知道我们可以使用Keyvectors.load_word2vec_format()来加载来自预训练的 word2vec 模型的词向量,但是我们是否有类似的功能来加载预训练的 doc2vec 模型以及在 gensim 中?
非常感谢。
当Doc2Vec使用 gensim 的 native 保存类似模型时save(),可以使用 nativeload()方法重新加载它:
model = Doc2Vec.load(filename)
Run Code Online (Sandbox Code Playgroud)
请注意,大型内部数组可能与主文件名一起保存在其他具有额外扩展名的文件名中 - 所有这些文件必须保存在一起以重新加载功能齐全的模型。(您仍然只需要指定主保存文件,辅助文件将在同一目录中的预期名称旁边发现。)
在尝试使用这些预训练模型时,您可能会遇到其他问题。特别是:
如链接页面所述,作者使用了大约 2 年前分叉的 gensim 的自定义变体;这些文件可能无法在标准 gensim 或更高版本的 gensim 中加载
尚不清楚哪些参数用于训练这些模型(尽管我想如果您成功加载它们,您可以将它们视为模型中的属性),以及出于哪些目的使用了多少元优化,以及这些目的是否会匹配您自己的项目
如果参数如其中一个 repo 文件中所示[train_model.py][1],则有些与最佳实践(amin_count=1通常对 不利Doc2Vec)或明显的模型大小(仅 1.4GB 的模型无法容纳所有2015 年维基百科中的数百万个文档或单词标记)
我强烈建议在您理解的语料库上使用最近的代码训练您自己的模型,并使用针对您自己目的优化的元参数。
| 归档时间: |
|
| 查看次数: |
5492 次 |
| 最近记录: |