cod*_*erg 1 mallet lda topic-modeling
我对 mallet 比较陌生,需要知道: - mallet 产生排名的每个主题中的单词是否以某种方式排序?- 如果是这样,排序是什么(即)主题列表中的第一个,即在整个语料库中分布最高的那个?
谢谢!
小智 5
它们根据训练的概率进行排名,即第一个单词最有可能出现在该主题中,第二个单词出现的可能性较小,第三个单词的可能性较小,依此类推。这些与术语频率没有直接关系,尽管带有最高的 tfidf 权重更有可能是最可能的。此外,吉布斯采样与主题中单词的排名有很大关系 - 由于采样的随机性,您可以获得主题内单词的完全不同的概率。例如,尝试保存模型,然后使用 --input-model 选项重新训练 - 主题看起来非常相似,但又不相同。
也就是说,如果您需要查看语料库中与 LDA 无关的术语的实际权重,您可以使用 Python 中的 NLTK 之类的工具来检查频率分布,也可以使用 sklearn 之类的 TFIDF 工具来获得更有意义的权重分布。
| 归档时间: |
|
| 查看次数: |
872 次 |
| 最近记录: |