小编mcn*_*lty的帖子

我有2000组数据,每组数据包含1000多个2D变量.我希望根据相似性将这些数据集聚集到20-100个集群中.但是,我在提出一种比较数据集的可靠方法时遇到了麻烦.我尝试了一些(相当原始的)方法并完成了很多研究,但我似乎找不到任何适合我需要做的事情.

我已经在下面发布了3组我的数据.数据在y轴上以0-1为界,并且在x轴上在~0-0.10范围内(实际上,理论上可以大于0.10).

数据的形状和相对比例可能是最重要的比较.但是,每个数据集的绝对位置也很重要.换句话说,每个单独点与另一个数据集的各个点的相对位置越接近,它们就越相似,然后需要考虑它们的绝对位置.

绿色和红色应该被认为是非常不同的,但推动是推,它们应该比蓝色和红色更相似.

我试过:

根据总体过剩和偏差进行比较
将变量分成坐标区域(即(0-0.10,0-0.10),(0.10-0.20,0.10-0.20)......(0.9-1.0,0.9-1.0))并根据区域内的共享点比较相似度
我已经尝试测量数据集中距离最近邻居的平均欧氏距离

所有这些都产生了错误的结果.我在研究中找到的最接近的答案是" 多组2D坐标的适当相似性度量 ".然而,那里给出的答案建议比较质心中最近邻居之间的平均距离,我认为这对我来说不适合作为方向,对于我的目的来说,距离的距离同样重要.

我可能会补充说,这将用于为另一个程序的输入生成数据,并且只会偶尔使用(主要用于生成具有不同数量的簇的不同数据集),因此半耗时的算法不是不可能的.

6
推荐指数

1
解决办法

2387
查看次数

小编mcn_lty的帖子