标签: k-means

R中的聚类分析:确定最佳聚类数

作为R的新手,我不太确定如何选择最佳数量的聚类来进行k均值分析.绘制下面数据的子集后,适合多少个群集？如何进行聚类dendro分析？

n = 1000
kk = 10    
x1 = runif(kk)
y1 = runif(kk)
z1 = runif(kk)    
x4 = sample(x1,length(x1))
y4 = sample(y1,length(y1)) 
randObs <- function()
{
  ix = sample( 1:length(x4), 1 )
  iy = sample( 1:length(y4), 1 )
  rx = rnorm( 1, x4[ix], runif(1)/8 )
  ry = rnorm( 1, y4[ix], runif(1)/8 )
  return( c(rx,ry) )
}  
x = c()
y = c()
for ( k in 1:n )
{
  rPair  =  randObs()
  x  =  c( x, rPair[1] )
  y  = …

Run Code Online (Sandbox Code Playgroud)

r cluster-analysis k-means

use*_*893

2014 05-07

422
推荐指数

6
解决办法

24万
查看次数

是否可以使用scikit-learn K-Means Clustering指定您自己的距离函数？

python cluster-analysis machine-learning k-means scikit-learn

bma*_*asc

2015 08-24

160
推荐指数

6
解决办法

6万
查看次数

使用k-means聚类时如何确定k？

我一直在研究k-means聚类,有一点不清楚你是如何选择k的值的.这只是一个反复试验的问题,还是有更多的问题？

cluster-analysis k-means

Jas*_*ker

2015 08-27

136
推荐指数

6
解决办法

11万
查看次数

Python k-means算法

我正在寻找k-means算法的Python实现,并带有示例来聚类和缓存我的坐标数据库.

python algorithm cluster-analysis k-means

Eey*_*ore

lucky-day

46
推荐指数

5
解决办法

9万
查看次数

具有相等簇大小的K均值算法变化

我正在寻找最快的算法,通过距离将地图上的点分组为相同大小的组.在K-均值聚类算法看起来简单的和有希望的,但不会产生同样大小的组.

是否存在此算法的变体或不同的算法,允许所有群集的成员数相等？

另请参见:对具有相同大小的k个簇中的n个点进行分组

algorithm cluster-analysis map k-means

pix*_*tik

2017 05-23

46
推荐指数

6
解决办法

3万
查看次数

k-means ++究竟是如何工作的？

我无法完全理解k-means ++算法.我很感兴趣的是如何挑选出第一个k质心(剩下的就像在原始的k-means中).

概率函数是基于距离还是高斯？
在同一时间,最长的远点(来自其他质心)被挑选出来用于新的质心.

我将欣赏一步一步的解释和一个例子.维基百科中的那个还不够清楚.一个评论很好的源代码也会有所帮助.如果您使用的是6个阵列,那么请告诉我们哪个阵列是为了什么.

language-agnostic algorithm cluster-analysis machine-learning k-means

Ant*_*eev

2019 10-15

38
推荐指数

2
解决办法

3万
查看次数

在k均值聚类之后为新数据分配聚类的简单方法

我在数据帧df1上运行k-means聚类,我正在寻找一种简单的方法来计算新数据帧df2(具有相同变量名称)中每个观察点的最近聚类中心.将df1视为训练集,将df2视为测试集; 我想在训练集上进行聚类,并将每个测试点分配给正确的聚类.

我知道如何使用apply函数和一些简单的用户定义函数(关于该主题的先前帖子通常提出类似的东西):

df1 <- data.frame(x=runif(100), y=runif(100))
df2 <- data.frame(x=runif(100), y=runif(100))
km <- kmeans(df1, centers=3)
closest.cluster <- function(x) {
  cluster.dist <- apply(km$centers, 1, function(y) sqrt(sum((x-y)^2)))
  return(which.min(cluster.dist)[1])
}
clusters2 <- apply(df2, 1, closest.cluster)

Run Code Online (Sandbox Code Playgroud)

但是,我正在为一个学生将不熟悉该apply功能的课程准备这个聚类示例,所以我更喜欢我是否可以使用内置函数将聚类分配给df2.有没有方便的内置函数来查找最近的集群？

r k-means

jos*_*ber

2015 06-29

37
推荐指数

2
解决办法

3万
查看次数

计算k均值的方差百分比？

在维基百科页面上,描述了用于确定k均值中的聚类数量的肘方法.scipy的内置方法提供了一个实现,但我不确定我是否理解它们所称的失真是如何计算的.

更确切地说,如果您绘制由集群解释的方差百分比与集群数量的关系图,则第一个集群将添加大量信息(解释大量方差),但在某些时候边际增益将下降,从而给出一个角度.图形.

假设我的相关质心有以下几点,那么计算这个量度的好方法是什么？

points = numpy.array([[ 0,  0],
       [ 0,  1],
       [ 0, -1],
       [ 1,  0],
       [-1,  0],
       [ 9,  9],
       [ 9, 10],
       [ 9,  8],
       [10,  9],
       [10,  8]])

kmeans(pp,2)
(array([[9, 8],
   [0, 0]]), 0.9414213562373096)

Run Code Online (Sandbox Code Playgroud)

我特别考虑计算0.94 ..测量给出的点和质心.我不确定是否可以使用任何内置的scipy方法,或者我必须编写自己的方法.关于如何有效地为大量积分做这些的任何建议？

简而言之,我的问题(所有相关的)如下:

给定距离矩阵和哪个点属于哪个聚类的映射,计算可用于绘制肘图的度量的好方法是什么？
如果使用不同的距离函数(如余弦相似度),方法会如何变化？

编辑2:失真

from scipy.spatial.distance import cdist
D = cdist(points, centroids, 'euclidean')
sum(numpy.min(D, axis=1))

Run Code Online (Sandbox Code Playgroud)

第一组点的输出是准确的.但是,当我尝试不同的设置时:

>>> pp = numpy.array([[1,2], [2,1], [2,2], [1,3], [6,7], [6,5], [7,8], [8,8]])
>>> kmeans(pp, 2)
(array([[6, 7],
       [1, 2]]), 1.1330618877807475)
>>> …

Run Code Online (Sandbox Code Playgroud)

python statistics numpy cluster-analysis k-means

Leg*_*end

2012 02-28

35
推荐指数

2
解决办法

4万
查看次数

scikit-learn会利用GPU吗？

在tensroflow中阅读scikit-learn的实现:http://learningtensorflow.com/lesson6/ 和scikit-learn:http://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html 我是努力决定使用哪种实现.

scikit-learn作为tensorflow docker容器的一部分安装,因此可以使用任一实现.

使用scikit-learn的原因: