Che*_*ang 13 nlp data-mining lda
我是LDA的新生,我想在我的工作中使用它.但是,出现了一些问题.
为了获得最佳性能,我想估算最佳主题编号.在阅读"查找科学主题"后,我知道我可以先计算logP(w | z),然后用一系列P(w | z)的调和平均值来估算P(w | T).
我的问题是"一系列"是什么意思?
小智 5
首先,有些人使用调和平均值来寻找最佳主题数,我也尝试过,但结果并不令人满意。因此,根据我的建议,如果您使用 R ,那么包“ldatuning”将很有用。它有四个用于计算最佳主题的指标参数数量。同样,基于困惑度和对数似然的 V 折交叉验证也是最佳主题建模的非常好的选择。V 折交叉验证对于大型数据集来说有点耗时。您可以看到“一种启发式方法来确定适当的主题数量在主题建模中”。重要链接: https://cran.r-project.org/web/packages/ldatuning/vignettes/topics.html https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4597325/