聚类二进制向量的稀疏数据集

Question

聚类二进制向量的稀疏数据集

shn*_*shn 6 cluster-analysis distance sparse-matrix

如果我有一个稀疏数据集,其中每个数据由1000个元素的向量描述,这个向量的每个元素可以是0或1(很多0和1),你知道任何可以帮助我的距离函数吗？聚集他们？在这种情况下,欧几里德的距离是否方便？我想知道这种情况是否有一个简单方便的距离指标,试试我的数据.

谢谢

Answer 1

cyb*_*org 12

你的问题没有一个答案.根据域名,有最佳做法.

一旦确定了相似性度量,聚类通常通过平均或通过查找medoid来完成.有关算法示例,请参阅有关聚类二进制数据的这些文章

卡洛斯奥多内兹使用K-means聚类二进制数据流.PDF

陶莉二进制数据聚类的通用模型.PDF

有关相似性度量的想法,请参阅此在线"测量二进制字符串之间相似性的工具".他们提到:Sokal-Michener,Jaccard,Russell-Rao,Hamann,Sorensen,antiDice,Sneath-Sokal,Rodger-Tanimoto,Ochiai,Yule,Anderberg,Kulczynski,Pearson's Phi和Gower2,Dot Product,Cosine Coefficient,Hamming Distance.他们还引用了这些论文:

Luke,BT,聚类二进制对象

林,D.,相似性的信息理论定义.

Toit,du SHC; Steyn,AGW; Stumpf,RH; 图形探索性数据分析; 第3章,p.77,1986; 施普林格出版社.

(我个人喜欢余弦.还有KL-divergence和它的Jensen距离对应物.)

Answer 2

Ano*_*sse 4

查看用于稀疏文本向量的距离函数（例如余弦距离）和用于比较集合的距离函数（例如杰卡德距离）。

归档时间：	14 年，1 月前
查看次数：	6144 次
最近记录：	9 年，6 月前