我一直在阅读相似性度量和图像特征提取; 大多数论文都将k-means称为一种良好的统一聚类技术,我的问题是,对于特定集合,k-means聚类是否有更好的选择?
这是我拥有的3个数据集的简化版本:
Set A = [1, 1, 2, 2, 1, 2, 2, 1]
Set B = [2, 2, 1, 2, 2, 1, 1, 3]
Set C = [8, 4, 4, 4, 4, 9, 8, 4]
Run Code Online (Sandbox Code Playgroud)
Haskell是否具有用于在数据集之间查找未指定模式的任何内置功能?我想在2个或更多数据集上运行我的程序,并让它报告哪些数据类似,在这种情况下,它们将是集合A和B.
algorithm haskell cluster-analysis pattern-matching nearest-neighbor
我是数据挖掘(文本聚类)研究领域的新手,我对训练和测试数据集有几个问题.
对不起新手问题希望这个小组的专家可以帮助我.
一般来说,更具体地说是伯努利混合模型(又名潜类分析).
cluster-analysis machine-learning data-mining time-complexity space-complexity
我有一个510x6的数据矩阵,并希望对此进行K-means聚类分析.我在绘制2维中的所有不同聚类时遇到问题.是不是可以在2个维度上绘制6个不同的聚类?
我正在使用mcl对无向图进行聚类。为此,我选择了一个连接节点的阈值,每个边缘的相似性度量以及膨胀参数以调整图的粒度。我一直在使用这些参数,但是到目前为止,群集似乎太大了(我进行了可视化处理,建议将最大的群集切成2个或更多的群集)。因此,我想知道还有什么其他参数可以用来改善聚类(我目前正在使用mcl的scheme参数来查看提高准确性是否会有所帮助,但是如果还有其他“更具体的”参数可以帮助获得较小的群集,例如,请让我知道)?
我有一个CSV文件如下:
id,at1,at2,at3
1072,0.5,0.2,0.7
1092,0.2,0.5,0.7
...
Run Code Online (Sandbox Code Playgroud)
我已经将它加载到Weka中进行聚类:
DataSource source = new DataSource("test.csv");
Instances data = source.getDataSet();
kmeans.buildClusterer(data);
Run Code Online (Sandbox Code Playgroud)
问题1:如何将第一列设置为ID?即.忽略第一列用于聚类目的.
然后我尝试打印出作业:
int[] assignments = kmeans.getAssignments();
int i = 0;
for (int clusterNum : assignments) {
System.out.printf("Instance %d -> Cluster %d \n", i, clusterNum);
i++;
}
Run Code Online (Sandbox Code Playgroud)
这打印:
Instance 1 -> Cluster 0
Instance 2 -> Cluster 2
...
Run Code Online (Sandbox Code Playgroud)
问题2:打印作业时如何参考ID?例如:
Instance 1072 -> Cluster 0
Instance 1092 -> Cluster 2
Run Code Online (Sandbox Code Playgroud) 我有这个矩阵:
x=[ 2+2*i 2-2*i -2+2*i -2-2*i];
Run Code Online (Sandbox Code Playgroud)
我想模拟传输它并为其添加噪声.我代表复数的组成部分如下:
A=randn(150,2)+2*ones(150,2); C=randn(150,2)-2*ones(150,2);
Run Code Online (Sandbox Code Playgroud)
在接收器处,我收到了下面的向量,其中组件根据我最初发送的内容(即 x)的组件进行排序.
X = [A A A C C A C C];
Run Code Online (Sandbox Code Playgroud)
现在我想应用kmeans(X)
有4个集群,所以kmeans(X,4)
.我遇到以下问题:
X
上面显示的复数. kmeans
显示聚类的结果. k-means
则使用聚类来决定传输信号是什么?我正在寻找一种有效的方法,根据相似单词序列的外观将大约1000万个字符串聚类成簇.
考虑一个字符串列表,如:
the fruit hut number one
the ice cre am shop number one
jim's taco
ice cream shop in the corner
the ice cream shop
the fruit hut
jim's taco outlet number one
jim's t aco in the corner
the fruit hut in the corner
Run Code Online (Sandbox Code Playgroud)
算法运行后,我希望它们聚集如下:
the ice cre am shop number one
ice cream shop in the corner
the ice cream shop
jim's taco
jim's taco outlet number one
jim's t aco in the corner
the fruit hut …
Run Code Online (Sandbox Code Playgroud) 我正在使用GaussianMixture进行轮廓分析.我试图修改用scikit网站编写的类似代码,但得到了奇怪的错误: -
- > 82个center = clusterer.cluster_centers_ 83#在聚类中心绘制白色圆圈84 ax2.scatter(中心[:,0],中心[:,1],marker ='o',
AttributeError:'GaussianMixture'对象没有属性'cluster_centers_'
from sklearn.metrics import silhouette_samples, silhouette_score
import matplotlib.pyplot as plt
import matplotlib.cm as cm
import numpy as np
print(__doc__)
X=reduced_data.values
range_n_clusters = [2, 3, 4, 5, 6]
for n_clusters in range_n_clusters:
# Create a subplot with 1 row and 2 columns
fig, (ax1, ax2) = plt.subplots(1, 2)
fig.set_size_inches(18, 7)
# The 1st subplot is the silhouette plot
# The silhouette coefficient can range from -1, 1 but in this example …
Run Code Online (Sandbox Code Playgroud) python cluster-analysis machine-learning scikit-learn data-science
cluster-analysis ×10
k-means ×4
algorithm ×2
data-mining ×2
matlab ×2
data-science ×1
haskell ×1
java ×1
matrix ×1
mcl ×1
nlp ×1
opencv ×1
python ×1
scikit-learn ×1
weka ×1