概念上将类似文档聚类在一起?

Leg*_*end 6 python nlp numpy machine-learning data-mining

这更像是一个概念问题,而不是一个实际的实现,我希望有人可以澄清.我的目标如下:给定一组文档,我想对它们进行聚类,使属于同一个集群的文档具有相同的"概念".

根据我的理解,潜在语义分析让我找到一个术语 - 文档矩阵的低秩近似,即给定一个矩阵X,它将X分解为三个矩阵的乘积,其中一个是对角矩阵Σ:

SVD

现在,我将继续选择低秩近似,即仅从Σ中选择前k个值,然后计算X'.一旦我有了这个矩阵,我就必须应用一些聚类算法,最终结果将是对具有相似概念的文档进行分组.这是应用群集的正确方法吗?我的意思是,计算X'然后在其上应用聚类或是否还有其他方法?

此外,在我的一个有点相关的问题中,有人告诉我,随着维数的增加,邻居的意义也会丢失.在这种情况下,从X'聚类这些高维数据点的理由是什么?我猜测集群类似文档的要求是一个现实世界的要求,在这种情况下,如何解决这个问题呢?

eat*_*eat 4

对于问题的第一部分:不,您不需要再执行任何“聚类”。您的singular value decomposition. 如果这仍然不清楚,请详细研究您的链接潜在语义分析

对于您的第二部分:请弄清楚您问题的第一部分,然后据此重述您问题的这一部分。