作为R的新手,我不太确定如何选择最佳数量的聚类来进行k均值分析.绘制下面数据的子集后,适合多少个群集?如何进行聚类dendro分析?
n = 1000
kk = 10
x1 = runif(kk)
y1 = runif(kk)
z1 = runif(kk)
x4 = sample(x1,length(x1))
y4 = sample(y1,length(y1))
randObs <- function()
{
ix = sample( 1:length(x4), 1 )
iy = sample( 1:length(y4), 1 )
rx = rnorm( 1, x4[ix], runif(1)/8 )
ry = rnorm( 1, y4[ix], runif(1)/8 )
return( c(rx,ry) )
}
x = c()
y = c()
for ( k in 1:n )
{
rPair = randObs()
x = c( x, rPair[1] )
y = …
Run Code Online (Sandbox Code Playgroud) 有人能解释数据挖掘中分类和聚类之间的区别吗?
如果可以,请举两个例子来理解主要想法.
terminology classification cluster-analysis machine-learning data-mining
是否可以使用scikit-learn K-Means Clustering指定您自己的距离函数?
python cluster-analysis machine-learning k-means scikit-learn
我一直在研究k-means聚类,有一点不清楚你是如何选择k的值的.这只是一个反复试验的问题,还是有更多的问题?
期望最大化如果采用一种概率方法对数据进行分类.如果我错了,请纠正我,如果它不是分类器.
这种EM技术的直观解释是什么?这里的期望是什么,最大化的是什么?
cluster-analysis machine-learning mathematical-optimization data-mining expectation-maximization
我有三个维度的大量向量.我需要基于欧几里德距离对这些进行聚类,使得任何特定聚类中的所有向量彼此之间的欧几里德距离小于阈值"T".
我不知道有多少个集群存在.最后,可能存在不属于任何聚类的个体向量,因为其欧氏距离不小于空间中任何向量的"T".
这里应该使用哪些现有的算法/方法?
algorithm math artificial-intelligence cluster-analysis machine-learning
可能重复:
最佳地聚类一维数据?
所以,假设我有一个这样的数组:
[1,1,2,3,10,11,13,67,71]
Run Code Online (Sandbox Code Playgroud)
有没有一种方便的方法将数组分区为这样的东西?
[[1,1,2,3],[10,11,13],[67,71]]
Run Code Online (Sandbox Code Playgroud)
我查看了类似的问题,但是大多数人建议使用k-means来聚集点,比如scipy,这对像我这样的初学者来说非常混乱.另外我认为k-means更适合两维或更多维聚类吧?有没有办法根据数字将N个数组分组到多个分区/聚类?
有些人还提出了严格的范围分区,但并不总是按预期呈现结果
arrays cluster-analysis data-mining dimension partition-problem
如何在值矩阵之上绘制树形图,在Python中适当地重新排序以反映聚类?一个例子如下图:
https://publishing-cdn.elifesciences.org/07103/elife-07103-fig6-figsupp1-v2.jpg
我使用scipy.cluster.dendrogram来制作树形图并对数据矩阵执行层次聚类.然后,我如何将数据绘制为矩阵,其中行已重新排序以反映在特定阈值处切割树状图所引起的聚类,并将树状图绘制在矩阵旁边?我知道如何在scipy中绘制树形图,而不是如何在其旁边的右侧比例尺绘制数据的强度矩阵.
任何有关这方面的帮助将不胜感激.
我正在寻找k-means算法的Python实现,并带有示例来聚类和缓存我的坐标数据库.
我正在寻找最快的算法,通过距离将地图上的点分组为相同大小的组.在K-均值聚类算法看起来简单的和有希望的,但不会产生同样大小的组.
是否存在此算法的变体或不同的算法,允许所有群集的成员数相等?
另请参见:对具有相同大小的k个簇中的n个点进行分组
cluster-analysis ×10
k-means ×5
algorithm ×3
data-mining ×3
python ×3
arrays ×1
dimension ×1
map ×1
math ×1
matplotlib ×1
r ×1
scikit-learn ×1
scipy ×1
terminology ×1