Ras*_*ngh 5 gensim word2vec doc2vec
我正在使用gensim doc2vec.我想知道是否有任何有效的方法来从doc2vec了解词汇量.一种粗略的方法是计算单词的总数,但如果数据很大(1GB或更多),那么这将不是一种有效的方法.
如果model您是经过培训的Doc2Vec模型,那么在应用您的词汇后,幸存词汇表中的唯一单词令牌数量min_count可从以下位置获得:
len(model.wv.vocab)
Run Code Online (Sandbox Code Playgroud)
受过训练的文档标签数量可从以下网址获得:
len(model.docvecs)
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
3376 次 |
| 最近记录: |