Latent Dirichlet Allocation主题数量未知

Question

Latent Dirichlet Allocation主题数量未知

use*_*880 3 statistics artificial-intelligence machine-learning

我正在寻找一种类似于LDA的技术,但不知道有多少"混合物"是最佳的 - 有什么可以做到的吗？

Answer 1

有两种方法可以解决这个问题,一种是hacky但很容易; 另一个更好的动机,但更复杂.从前者开始,人们可以简单地尝试一系列k(主题数)并比较每种情况下观察到的数据的可能性.您可能希望根据您的情况惩罚更多的主题 - 或者您可以明确地将先前分布置于k上(即,以主观预期的群集数量为中心的正常分布).在任何情况下,您只需选择最大化可能性的k.

更有原则的方法是使用贝叶斯非参数和Dirichlet过程,特别是在主题模型的情况下.看看这篇论文.我不相信这是一个实现可用在这里,虽然我还没有太多的看着它.

归档时间：	13 年，1 月前
查看次数：	2212 次
最近记录：	13 年，1 月前