聚类二进制向量的稀疏数据集

shn*_*shn 6 cluster-analysis distance sparse-matrix

如果我有一个稀疏数据集,其中每个数据由1000个元素的向量描述,这个向量的每个元素可以是0或1(很多0和1),你知道任何可以帮助我的距离函数吗?聚集他们?在这种情况下,欧几里德的距离是否方便?我想知道这种情况是否有一个简单方便的距离指标,试试我的数据.

谢谢

cyb*_*org 12

你的问题没有一个答案.根据域名,有最佳做法.

一旦确定了相似性度量,聚类通常通过平均或通过查找medoid来完成.有关算法示例,请参阅有关聚类二进制数据的这些文章

  • 卡洛斯奥多内兹 使用K-means聚类二进制数据流.PDF
  • 陶莉 二进制数据聚类的通用模型.PDF

有关相似性度量的想法,请参阅此在线"测量二进制字符串之间相似性的工具".他们提到:Sokal-Michener,Jaccard,Russell-Rao,Hamann,Sorensen,antiDice,Sneath-Sokal,Rodger-Tanimoto,Ochiai,Yule,Anderberg,Kulczynski,Pearson's Phi和Gower2,Dot Product,Cosine Coefficient,Hamming Distance.他们还引用了这些论文:

  • Luke,BT,聚类二进制对象
  • 林,D.,相似性的信息理论定义.
  • Toit,du SHC; Steyn,AGW; Stumpf,RH; 图形探索性数据分析; 第3章,p.77,1986; 施普林格出版社.

(我个人喜欢余弦.还有KL-divergence和它的Jensen距离对应物.)


Ano*_*sse 4

查看用于稀疏文本向量的距离函数(例如余弦距离)和用于比较集合的距离函数(例如杰卡德距离)。