抱歉,如果这个答案显而易见,请善待,这是我第一次来这里:-)
如果有人能给我一个关于k-means的适当输入数据结构的引导,我将不胜感激.我正在撰写一篇硕士论文,其中我提出了一个针对我的领域的新的TF-IDF术语称量方法.我想使用k-means对结果进行聚类,然后应用一些内部和外部评估标准来查看我的新术语加权方法是否有任何优点.
到目前为止我的步骤(在PHP中实现),所有工作都是
步骤1:读入文档集合步骤2:清除文档集合,特征提取,特征选择步骤3:术语频率(TF)步骤4:反向文档频率(IDF)步骤5:TF*IDF步骤6:将TF-IDF标准化为固定长度矢量
我在哪里挣扎
第7步:向量空间模型 - 余弦相似度
我可以找到的唯一示例,将输入查询与每个文档进行比较并找到相似性.如果没有输入查询(这不是信息检索系统),我是否将语料库中的每个文档与语料库中的每个其他文档(每对文档)进行比较?我找不到任何应用于完整文档集合的Cosine Similarity示例,而不是与集合相比的单个示例/查询.
第8步:K-Means
我在这里努力去理解k-means的输入向量是否应该包含集合中每个文档的余弦相似度得分矩阵与每个其他文档(余弦相似度矩阵).或者k-means应该应用于术语向量模型.如果它是后者,我可以找到k-means的每个例子都是非常基本的,并且可以用单数表示.如何处理我的文档集合中有多个术语等事实
余弦相似度和K-Means被暗示为在许多例子上记录聚类的解决方案,因此我遗漏了一些非常明显的东西.
如果有人能给我一个引导我会永远感激.
谢谢
克莱尔