R监督潜在Dirichlet分配包

Ale*_* R. 13 r dirichlet topic-modeling latent-semantic-analysis

我正在使用这个LDA包用于R.特别是我正在尝试进行监督潜在的dirichlet分配(slda).在链接包中,有一个slda.em功能.但令我困惑的是它要求alpha,eta和variance参数.据我了解,我认为这些参数在模型中是未知的.所以我的问题是,包的作者是否意味着这些是参数的初步猜测?如果是,似乎没有办法从运行结果中访问它们slda.em.

除了编码算法中的额外EM步骤之外,是否有建议的方法来猜测这些参数的合理值?

Tch*_*hke 4

由于您正在尝试生成监督模型,因此典型的方法是使用交叉验证来确定模型参数。因此,您保留一些数据作为测试集,在剩余数据上训练模型,并评估模型性能,重复 k 次。然后,您继续使用不同的模型参数进行重复,以确定哪个模型参数能够产生最佳模型性能。

对于slda的具体情况,我会跑去demo(slda)看作者的实现。当您运行演示时,您会看到他设置了alpha=1.0eta=0.1variance=0.25。我建议使用这些作为您的起点,然后如果您需要提高模型性能,请使用交叉验证来确定更好的参数。