相关疑难解决方法(0)

points = numpy.array([[ 0,  0],
       [ 0,  1],
       [ 0, -1],
       [ 1,  0],
       [-1,  0],
       [ 9,  9],
       [ 9, 10],
       [ 9,  8],
       [10,  9],
       [10,  8]])

kmeans(pp,2)
(array([[9, 8],
   [0, 0]]), 0.9414213562373096)

Run Code Online (Sandbox Code Playgroud)

我特别考虑计算0.94 ..测量给出的点和质心.我不确定是否可以使用任何内置的scipy方法,或者我必须编写自己的方法.关于如何有效地为大量积分做这些的任何建议？

简而言之,我的问题(所有相关的)如下:

给定距离矩阵和哪个点属于哪个聚类的映射,计算可用于绘制肘图的度量的好方法是什么？
如果使用不同的距离函数(如余弦相似度),方法会如何变化？

编辑2:失真

from scipy.spatial.distance import cdist
D = cdist(points, centroids, 'euclidean')
sum(numpy.min(D, axis=1))

Run Code Online (Sandbox Code Playgroud)

第一组点的输出是准确的.但是,当我尝试不同的设置时:

>>> pp = numpy.array([[1,2], [2,1], [2,2], [1,3], [6,7], [6,5], [7,8], [8,8]])
>>> kmeans(pp, 2)
(array([[6, 7],
       [1, 2]]), 1.1330618877807475)
>>> …

Run Code Online (Sandbox Code Playgroud)

python statistics numpy cluster-analysis k-means

Leg*_*end

2012 02-28

35
推荐指数

2
解决办法

4万
查看次数

Python与Numpy/Scipy与Pure C++进行大数据分析

在相对小的项目做的Python让我欣赏这种语言的动态类型性质(无需申报代码跟踪的类型),这往往使沿途更快,痛苦少的发展过程.但是,我觉得在更大的项目中,这实际上可能是一个障碍,因为代码运行速度比在C++中等效.但话又说回来,使用numpy的和/或SciPy的使用Python可以让你的代码作为一个本地C++程序(其中在C++代码有时会需要更长的时间来开发)一样跑得快.

我在阅读Justin Peel对线程" Python是否比C++更快,更轻？ " 的评论后发布了这个问题,他说:"而且,那些谈论Python对于严重数字运算缓慢的人并没有使用Numpy和Scipy模块. Python是真正起飞在科学计算的这些日子.当然,速度来自使用用C或Fortran语言编写的库模块,但是这在我看来,一个脚本语言的美." 或者,正如·洛写关于Python的在同一线程上:"......既然管理内存对我来说,我没有做任何的内存管理,节约追逐核泄漏的时间." 我还考察了一个Python/numpy的/ C++相关的性能问题的" 标杆(蟒蛇与C++使用BLAS)和(numpy的) ",其中JF塞巴斯蒂安写道:"......这里是C之间和numpy的我的机器上没有区别++".

这两个线程让我想知道,对于使用Numpy/Scipy生成软件来分析"大数据"的Python程序员来说,知道C++是否有任何真正的优势,其中性能显然非常重要(还有代码可读性和开发)速度是必须的)？

注意:我对处理大量文本文件特别感兴趣.具有多列的100K-800K行的文本文件,其中Python可能需要花费五分钟来分析"仅"200K行的文件.

c++ python benchmarking numpy scipy

war*_*hip

2017 05-23

12
推荐指数

2
解决办法

1万
查看次数

Python相当于R的集群包中的daisy()

我有一个包含分类(名义和序数)和数字属性的数据集.我想使用这些混合属性在我的观察中计算(dis)相似性矩阵.使用R中集群包的daisy()函数,我可以很容易地获得如下的相异矩阵:

if(!require("cluster")) { install.packages("cluster");  require("cluster") }
data(flower)
as.matrix(daisy(flower, metric = "gower"))

Run Code Online (Sandbox Code Playgroud)

这使用gower度量来处理名义变量.是否有一个Python相当于daisy()R 中的函数？

或者也许任何其他模块函数允许使用Gower指标或类似的东西计算具有混合(名义,数字)属性的数据集的(dis)相似性矩阵？

Zhu*_*arb

2017 09-13

12
推荐指数

2
解决办法

8489
查看次数

我们应该使用k-means ++而不是k-means吗？

的k均值++算法有助于以下两个原始K-means算法的要点:

原始k-means算法在输入大小上具有超级多项式的最差情况运行时间,而k-means ++声称为O(log k).
与最佳聚类相比,所发现的近似可以产生关于目标函数的不太令人满意的结果.

但是k-means ++有什么缺点吗？从现在开始我们应该总是使用它而不是k-means吗？

algorithm comparison performance cluster-analysis k-means

Kar*_*arl

2016 01-17

10
推荐指数

2
解决办法

3842
查看次数

scikit-learn kmeans自定义距离

我希望使用kmeans算法对某些数据进行聚类，但是我想使用自定义距离函数。有什么办法可以更改scikit-learn使用的距离函数？

我还将选择一个不同的框架/模块，该框架/模块可以交换距离函数并可以并行计算kmeans（我想加快计算速度，这是scikit-learn的一个不错的功能）

有什么建议么？

python scikit-learn

Nil*_*ehn

lucky-day

5
推荐指数

1
解决办法

9353
查看次数

在Opencv和python中的K-means聚类:在mahalanobis距离中是否有任何聚类选项？

是否有任何选项可以在Mahalanobis中进行聚类,或者可以轻松地与Opencv一起使用

cv2.kmeans

Run Code Online (Sandbox Code Playgroud)

在python中的功能？

python opencv image-processing computer-vision

bra*_*ess

lucky-day

3
推荐指数

1
解决办法

743
查看次数

在python中具有L1距离的kmeans

给定一个 NxM 特征向量作为 numpy 矩阵。是否有任何例程可以使用 L1 距离（曼哈顿距离）通过 Kmeans 算法对其进行聚类？

python numpy k-means

Jus*_*ime

2011 06-06

2
推荐指数

1
解决办法

6795
查看次数

“scipy.sparse.issparse”如何工作？它总是返回“假”

scipy.sparse.issparse 在这篇文章中使用。

是否可以使用 scikit-learn K-Means Clustering 指定您自己的距离函数？

但是，我不知道它是如何工作的。我已经找到了文件，它是空的。 http://docs.scipy.org/doc/scipy/reference/generated/scipy.sparse.issparse.html

from scipy.sparse import issparse

issparse([0, 0, 0])
>> False

issparse([[1, 0, 0], [0, 0, 0]])
>> False

Run Code Online (Sandbox Code Playgroud)

它总是返回False。我怎样才能让它回来True？

python scipy

aki*_*iwa

2017 05-23

2
推荐指数

1
解决办法

3214
查看次数

标签统计

python ×9

k-means ×5

cluster-analysis ×4

numpy ×4

scipy ×3

algorithm ×2

benchmarking ×1

c++ ×1

categorical-data ×1

comparison ×1

computer-vision ×1

image-processing ×1

matrix ×1

opencv ×1

performance ×1

r ×1

r-daisy ×1

scikit-learn ×1

similarity ×1

sparse-matrix ×1

statistics ×1

标签 统计

标签统计