有没有办法从doc2vec模型中获取词汇量?

Ras*_*ngh 5 gensim word2vec doc2vec

我正在使用gensim doc2vec.我想知道是否有任何有效的方法来从doc2vec了解词汇量.一种粗略的方法是计算单词的总数,但如果数据很大(1GB或更多),那么这将不是一种有效的方法.

goj*_*omo 9

如果model您是经过培训的Doc2Vec模型,那么在应用您的词汇后,幸存词汇表中的唯一单词令牌数量min_count可从以下位置获得:

len(model.wv.vocab)
Run Code Online (Sandbox Code Playgroud)

受过训练的文档标签数量可从以下网址获得:

len(model.docvecs)
Run Code Online (Sandbox Code Playgroud)

  • 当然-在撰写本文时!仍然是–只是在另一个地方!在最新版本的gensim中,“ vocab”对象已移至组成的“ wv”属性,在第1版编写此答案后于2017年2月发布的1.0.0版本中,该版本具有向后兼容的访问“ vocab”的功能。通过`model.vocab`被删除了。上面的答案已更新,以匹配当前gensim。 (2认同)