afs*_*afs 10 cluster-analysis unsupervised-learning topic-modeling
主题建模可识别文档集合中主题的分布,从而有效地识别集合中的集群.那么说主题建模是一种进行文档聚类的技术是正确的吗?
Sho*_*ley 11
一个主题与文档集群完全不同,毕竟,主题不是由文档组成的.
但是,这两种技术确实有关.我认为主题建模是决定文档类似程度的可行方法,因此是文档聚类的可行方法.
在将每个文档表示为主题分布(实际上是向量)时,主题建模技术将特征维度从出现(在语料库中)的不同单词的数量减少到主题的数量.文档主题分布之间的相似性可以使用余弦指标和许多其他指标来计算,这些指标反映了文档本身在其涵盖的主题/主题方面的相似性.基于该量化的相似性度量,可以应用许多聚类算法来对文档进行分组.
从这个意义上讲,我认为主题建模是一种进行文档聚类的技术是正确的.