shn*_*shn 6 cluster-analysis distance sparse-matrix
如果我有一个稀疏数据集,其中每个数据由1000个元素的向量描述,这个向量的每个元素可以是0或1(很多0和1),你知道任何可以帮助我的距离函数吗?聚集他们?在这种情况下,欧几里德的距离是否方便?我想知道这种情况是否有一个简单方便的距离指标,试试我的数据.
谢谢
cyb*_*org 12
你的问题没有一个答案.根据域名,有最佳做法.
一旦确定了相似性度量,聚类通常通过平均或通过查找medoid来完成.有关算法示例,请参阅有关聚类二进制数据的这些文章
有关相似性度量的想法,请参阅此在线"测量二进制字符串之间相似性的工具".他们提到:Sokal-Michener,Jaccard,Russell-Rao,Hamann,Sorensen,antiDice,Sneath-Sokal,Rodger-Tanimoto,Ochiai,Yule,Anderberg,Kulczynski,Pearson's Phi和Gower2,Dot Product,Cosine Coefficient,Hamming Distance.他们还引用了这些论文:
- Luke,BT,聚类二进制对象
- 林,D.,相似性的信息理论定义.
- Toit,du SHC; Steyn,AGW; Stumpf,RH; 图形探索性数据分析; 第3章,p.77,1986; 施普林格出版社.
(我个人喜欢余弦.还有KL-divergence和它的Jensen距离对应物.)