如何确定LDA的主题数量?

Che*_*ang 13 nlp data-mining lda

我是LDA的新生,我想在我的工作中使用它.但是,出现了一些问题.

为了获得最佳性能,我想估算最佳主题编号.在阅读"查找科学主题"后,我知道我可以先计算logP(w | z),然后用一系列P(w | z)的调和平均值来估算P(w | T).

我的问题是"一系列"是什么意思?

Sel*_*lva 10

一种可靠的方法是计算不同主题数量的主题一致性,并选择给出最高主题一致性的模型。但有时,最高的可能并不总是符合要求。

在此处输入图片说明

请参阅此主题建模示例。


Cht*_*ect 7

不幸的是,没有硬科学能够正确回答你的问题.据我所知,分层狄利克雷过程(HDP)很可能是在主题的最佳数量到达最佳途径.

如果你正在寻找更深入的分析,本文对HDP报告中确定的组数HDP的优势.


小智 5

首先,有些人使用调和平均值来寻找最佳主题数,我也尝试过,但结果并不令人满意。因此,根据我的建议,如果您使用 R ,那么包“ldatuning”将很有用。它有四个用于计算最佳主题的指标参数数量。同样,基于困惑度和对数似然的 V 折交叉验证也是最佳主题建模的非常好的选择。V 折交叉验证对于大型数据集来说有点耗时。您可以看到“一种启发式方法来确定适当的主题数量在主题建模中”。重要链接: https://cran.r-project.org/web/packages/ldatuning/vignettes/topics.html https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4597325/