use*_*099 9 nlp machine-learning data-mining text-mining lda
我想澄清潜在的Dirichlet分配(LDA)与文档聚类的通用任务之间的关系.
LDA分析倾向于输出每个文档的主题比例.如果我的理解是正确的,这不是文档聚类的直接结果.但是,我们可以将此概率比例视为每个文档的特征代表.之后,我们可以根据LDA分析生成的特征配置调用其他已建立的聚类方法.
我的理解是否正确?谢谢.
Fre*_*Foo 10
是的,您可以将LDA的输出视为文档的功能; 这正是Blei,Ng和Jordan在引入LDA的论文中所做的.他们这样做是为了分类,但对于聚类,程序是一样的.
(在机器学习术语中,LDA的这种使用被称为降维,因为它将特征空间的维数从| V |,词汇量大小减少到用户选择的某些k个主题.)
归档时间:
14 年,7 月 前
查看次数:
1829 次
最近记录:
13 年,2 月 前