doc2vec在不同大小的数据集上训练时如何执行?在原始语料库中没有提到数据集大小,所以我想知道从doc2vec获得良好性能所需的最小大小是多少.
只需阅读gensim页面上的doc2vec命令即可.
我很好奇命令"intersect_word2vec_format".
我对这个命令的理解是它允许我将预训练的word2vec模型中的矢量值注入我的doc2vec模型,然后使用预训练的word2vec值训练我的doc2vec模型,而不是从我的文档语料库中生成单词矢量值.结果是我获得了更准确的doc2vec模型,因为我使用的是预训练的w2v值,这是从我相对较小的文档语料库中生成的更大的数据库中生成的.
我对这个命令的理解是正确还是不正确?;-)