Mah*_*suf 4 mallet topic-modeling
在 MALLET 主题建模中,该--output-topic-keys [FILENAME]选项在每个主题旁边输出一个参数,该参数在 MALLET 站点的教程中称为该主题的“Dirichlet 参数”。
我想知道这个参数代表什么?是吗 ?在 LDA 模型中?如果不是,它是什么,它的意义和用途是什么。
我注意到当我在生成主题模型时不使用参数优化选项时,此参数在 2.0.7 版本中与在 2.0.8 版本中不同。我想知道为什么会发生这种差异。
这是 2.0.7 版输出
和 2.0.8
我知道每次运行的输出都不同,但我只关心这个参数。
Mallet 中使用的主题模型推理算法涉及为每个单词重复采样新的主题分配,保持所有其他单词的分配固定。控制这个过程的因素是(1)当前词类型在每个主题中出现的频率和(2)每个主题在当前文档中出现的次数。平滑参数确保这些值对于任何主题永远不会为零:beta对于第一个因素,alpha对于第二个因素。
您可以alpha将此处显示的参数视为每个主题中添加的“虚构”单词的数量。在第一种情况下,主题 0 在每个文档中都有 2.5 个虚拟词的权重。此参数的默认值最初是 50 /numTopics。较大的值鼓励模型在文档中具有更均匀的主题分布,较小的值鼓励更多的稀疏性。一般的经验是 50 太大了,而 5 是更好的默认值。这在 2.0.8 中有所改变。
默认是使alpha所有主题的权重相等。启用超参数优化后,这些值可能会有所不同。通常你会发现一个大值的主题会包含“近停用词”,这些词在大多数文档中很常见,而且内容并不多。价值非常小的主题通常是不寻常和独特的文档。中间的话题往往是最有趣的。