Leg*_*end 6 python nlp numpy machine-learning data-mining
这更像是一个概念问题,而不是一个实际的实现,我希望有人可以澄清.我的目标如下:给定一组文档,我想对它们进行聚类,使属于同一个集群的文档具有相同的"概念".
根据我的理解,潜在语义分析让我找到一个术语 - 文档矩阵的低秩近似,即给定一个矩阵X,它将X分解为三个矩阵的乘积,其中一个是对角矩阵Σ:
现在,我将继续选择低秩近似,即仅从Σ中选择前k个值,然后计算X'.一旦我有了这个矩阵,我就必须应用一些聚类算法,最终结果将是对具有相似概念的文档进行分组.这是应用群集的正确方法吗?我的意思是,计算X'然后在其上应用聚类或是否还有其他方法?
此外,在我的一个有点相关的问题中,有人告诉我,随着维数的增加,邻居的意义也会丢失.在这种情况下,从X'聚类这些高维数据点的理由是什么?我猜测集群类似文档的要求是一个现实世界的要求,在这种情况下,如何解决这个问题呢?
归档时间: |
|
查看次数: |
1101 次 |
最近记录: |