标签: cluster-analysis

K-Means替代品和性能

我一直在阅读相似性度量和图像特征提取; 大多数论文都将k-means称为一种良好的统一聚类技术,我的问题是,对于特定集合,k-means聚类是否有更好的选择?

opencv cluster-analysis k-means

1
推荐指数
1
解决办法
2706
查看次数

使用Haskell进行最近邻和模式识别

这是我拥有的3个数据集的简化版本:

Set A = [1, 1, 2, 2, 1, 2, 2, 1]
Set B = [2, 2, 1, 2, 2, 1, 1, 3]
Set C = [8, 4, 4, 4, 4, 9, 8, 4]
Run Code Online (Sandbox Code Playgroud)

Haskell是否具有用于在数据集之间查找未指定模式的任何内置功能?我想在2个或更多数据集上运行我的程序,并让它报告哪些数据类似,在这种情况下,它们将是集合A和B.

algorithm haskell cluster-analysis pattern-matching nearest-neighbor

1
推荐指数
1
解决办法
649
查看次数

为什么我们需要在研究中培训和测试数据集?

我是数据挖掘(文本聚类)研究领域的新手,我对训练和测试数据集有几个问题.

  1. 这种聚类需要培训和测试数据集吗?
  2. 为什么我们需要分成训练和测试数据集?

对不起新手问题希望这个小组的专家可以帮助我.

cluster-analysis

1
推荐指数
1
解决办法
3442
查看次数

1
推荐指数
1
解决办法
6381
查看次数

K均值聚类图

我有一个510x6的数据矩阵,并希望对此进行K-means聚类分析.我在绘制2维中的所有不同聚类时遇到问题.是不是可以在2个维度上绘制6个不同的聚类?

matlab cluster-analysis k-means

1
推荐指数
1
解决办法
1万
查看次数

我可以使用mcl玩什么参数?

我正在使用mcl对无向图进行聚类。为此,我选择了一个连接节点的阈值,每个边缘的相似性度量以及膨胀参数以调整图的粒度。我一直在使用这些参数,但是到目前为止,群集似乎太大了(我进行了可视化处理,建议将最大的群集切成2个或更多的群集)。因此,我想知道还有什么其他参数可以用来改善聚类(我目前正在使用mcl的scheme参数来查看提高准确性是否会有所帮助,但是如果还有其他“更具体的”参数可以帮助获得较小的群集,例如,请让我知道)?

cluster-analysis machine-learning data-mining mcl

1
推荐指数
1
解决办法
615
查看次数

在Weka中获取集群分配

我有一个CSV文件如下:

id,at1,at2,at3
1072,0.5,0.2,0.7
1092,0.2,0.5,0.7
...
Run Code Online (Sandbox Code Playgroud)

我已经将它加载到Weka中进行聚类:

DataSource source = new DataSource("test.csv");
Instances data = source.getDataSet();
kmeans.buildClusterer(data);
Run Code Online (Sandbox Code Playgroud)

问题1:如何将第一列设置为ID?即.忽略第一列用于聚类目的.

然后我尝试打印出作业:

int[] assignments = kmeans.getAssignments();
int i = 0;
for (int clusterNum : assignments) {
    System.out.printf("Instance %d -> Cluster %d \n", i, clusterNum);
    i++;
}
Run Code Online (Sandbox Code Playgroud)

这打印:

Instance 1 -> Cluster 0 
Instance 2 -> Cluster 2
...
Run Code Online (Sandbox Code Playgroud)

问题2:打印作业时如何参考ID?例如:

Instance 1072 -> Cluster 0
Instance 1092 -> Cluster 2
Run Code Online (Sandbox Code Playgroud)

java cluster-analysis weka k-means

1
推荐指数
1
解决办法
2874
查看次数

在matlab上使用kmeans进行Kmeans聚类

我有这个矩阵:

x=[ 2+2*i 2-2*i -2+2*i -2-2*i];
Run Code Online (Sandbox Code Playgroud)

我想模拟传输它并为其添加噪声.我代表复数的组成部分如下:

A=randn(150,2)+2*ones(150,2); C=randn(150,2)-2*ones(150,2);
Run Code Online (Sandbox Code Playgroud)

在接收器处,我收到了下面的向量,其中组件根据我最初发送的内容( x)的组件进行排序.

X = [A A A C C A C C];
Run Code Online (Sandbox Code Playgroud)

现在我想应用kmeans(X)有4个集群,所以kmeans(X,4).我遇到以下问题:

  1. 我不确定我是否可以代表X上面显示的复数.
  2. 我无法绘制kmeans显示聚类的结果.
  3. 我无法理解群集质心结果.
  4. 如何找到最佳错误率,如果这个例子是代表通信系统而在接收器上,k-means则使用聚类来决定传输信号是什么?

matlab cluster-analysis matrix k-means

1
推荐指数
1
解决办法
4604
查看次数

基于相似词序列的聚类串

我正在寻找一种有效的方法,根据相似单词序列的外观将大约1000万个字符串聚类成簇.

考虑一个字符串列表,如:

the fruit hut number one
the ice cre  am shop number one
jim's taco
ice cream shop in the corner
the ice cream shop
the fruit hut
jim's taco outlet number one
jim's t  aco in the corner
the fruit hut in the corner
Run Code Online (Sandbox Code Playgroud)

算法运行后,我希望它们聚集如下:

the ice cre  am shop number one
ice cream shop in the corner
the ice cream shop

jim's taco
jim's taco outlet number one
jim's t  aco in the corner

the fruit hut …
Run Code Online (Sandbox Code Playgroud)

algorithm nlp cluster-analysis machine-learning

1
推荐指数
1
解决办法
320
查看次数

高斯混合的轮廓分析

我正在使用GaussianMixture进行轮廓分析.我试图修改用scikit网站编写的类似代码,但得到了奇怪的错误: -

- > 82个center = clusterer.cluster_centers_ 83#在聚类中心绘制白色圆圈84 ax2.scatter(中心[:,0],中心[:,1],marker ='o',

AttributeError:'GaussianMixture'对象没有属性'cluster_centers_'

from sklearn.metrics import silhouette_samples, silhouette_score

import matplotlib.pyplot as plt
import matplotlib.cm as cm
import numpy as np

print(__doc__)

X=reduced_data.values
range_n_clusters = [2, 3, 4, 5, 6]

for n_clusters in range_n_clusters:
    # Create a subplot with 1 row and 2 columns
    fig, (ax1, ax2) = plt.subplots(1, 2)
    fig.set_size_inches(18, 7)

    # The 1st subplot is the silhouette plot
    # The silhouette coefficient can range from -1, 1 but in this example …
Run Code Online (Sandbox Code Playgroud)

python cluster-analysis machine-learning scikit-learn data-science

1
推荐指数
1
解决办法
1264
查看次数