tan*_*tan 37 lda topic-modeling
我读过LDA,我理解当输入文档集合时如何生成主题的数学.
参考文献说,LDA是一种算法,在给定文档集合的情况下(不需要监督),可以发现该集合中文档所表达的"主题".因此,通过使用LDA算法和Gibbs采样器(或变分贝叶斯),我可以输入一组文档,作为输出,我可以得到主题.每个主题都是一组具有指定概率的术语.
我不明白的是,如果上述情况属实,那么为什么许多主题建模教程谈论将数据集分成训练和测试集?
任何人都可以向我解释LDA如何用于训练模型的步骤(基本概念),然后可以用它来分析另一个测试数据集?
小智 37
将数据拆分为训练和测试集是评估学习算法性能的常用步骤.对于有监督的学习更为明确,其中您在训练集上训练模型,然后查看其在测试集上的分类与真实的类标签的匹配程度.对于无监督学习,这种评估有点棘手.在主题建模的情况下,性能的常见度量是困惑.您在训练集上训练模型(如LDA),然后您会看到模型在测试集上的"困惑"程度.更具体地说,您可以衡量测试文档的字数由主题所代表的单词分布表示的程度.
困惑对于模型或参数设置之间的相对比较是有益的,但它的数值并不真正意义重大.我更喜欢使用以下手动评估过程来评估主题模型:
我意识到这个过程并不像人们想象的那么好和定量,但说实话,主题模型的应用也很少量化.我建议根据您应用的问题评估您的主题模型.
祝好运!
| 归档时间: |
|
| 查看次数: |
19201 次 |
| 最近记录: |