我一直在尝试将我的训练集安装到 KMeans 集群上,并将其预测到测试测试中,但它对我来说至少已经尝试了一周了。我很好奇我是否正在解释 KMeans 的使用方式?有人告诉我它无人监管。这是否意味着如果它知道训练数据如何聚类,就不能用于预测聚类?
谢谢。
当我复制并粘贴以下matlab示例时,真是太奇怪了
http://www.mathworks.co.jp/help/toolbox/stats/kmeans.html
到工作地点,它说:
??? 使用==> kmeans时出错输入参数太多.
有人有同样的问题吗?
我有 1000 多个关键字的列表,我想按相似性将它们组合在一起。
例如:
我希望将“家具”和“椅子”这两个词组合在一起。
我知道我可以做到这一点的一种方法是指定一些预先选择的“质心”术语,然后计算每个术语的 Levenshtein 距离并使用 kmeans 对它们进行聚类。
但我有兴趣了解的是,如何在不预先指定“椅子”和“家具”等质心术语的情况下做到这一点。
谢谢。
聚类数据集,然后将数据转换为使用sklearn.cluster.KMeans从质心的距离后,才可能扭转改造,给出的质心,找回原来的特点是什么?
python machine-learning k-means dimensionality-reduction scikit-learn
我想知道,假设初始质心点是随机选择的,那么对于完全相同的数据集,我们是否可以获得大致相同的质心点。
我正在编写一个测试kmeans程序,但它们似乎不匹配。我想知道我在做什么是否正确。
cluster-analysis machine-learning k-means unsupervised-learning
这是我在kmeans之前的工作-
> sort(table(mydata))
mydata
23 7 9 4 10 3 5 8 2 1
1 3 3 4 5 6 6 6 7 9
km <- kmeans(mydata, centers = 10)
Run Code Online (Sandbox Code Playgroud)
在kmeans之后-
> sort(table(km$cluster))
km$cluster
1 6 7 3 5 2 4 10 8 9
1 3 3 4 5 6 6 6 7 9
Run Code Online (Sandbox Code Playgroud)
显然,我的所有1都存储在群集9中,所有2都存储在群集8中,依此类推。
我可以使用R查找特定数字所属的群集吗?说,找到我的1属于哪个集群?
我使用 scikit-learn 通过 k-means 进行聚类:
from sklearn import cluster
k = 4
kmeans = cluster.KMeans(n_clusters=k)
Run Code Online (Sandbox Code Playgroud)
但另一个问题是:如何使用 scikit 学习计算 k 均值特征重要性?
我正在尝试使用Pyspark实现KMeans算法,它在while循环的最后一行给出了上述错误.它在循环外工作正常,但在我创建循环后它给了我这个错误我该怎么解决这个问题?
# Find K Means of Loudacre device status locations
#
# Input data: file(s) with device status data (delimited by '|')
# including latitude (13th field) and longitude (14th field) of device locations
# (lat,lon of 0,0 indicates unknown location)
# NOTE: Copy to pyspark using %paste
# for a point p and an array of points, return the index in the array of the point closest to p
def closestPoint(p, points):
bestIndex = 0
closest = float("+inf")
# …Run Code Online (Sandbox Code Playgroud) 如何在收敛过程中计算 sklearn 中的集群异质性?集群异质性由每个样本点相对于指定集群的欧几里得距离的总和给出。这为每个步骤提供了不同的值。
如何在熊猫的KMeans算法中获取每个群集中的值总数?
我尝试了以下方法:
kmeans_model = KMeans(n_clusters = 3, random_state = 1).fit(dataframe.iloc[:,:])
clusters = kmeans_model.labels_.count()
Run Code Online (Sandbox Code Playgroud)
但它不起作用。
我的预期输出是:
Clusters Number_of_values
cluster_0 932
cluster_1 931
cluster_2 930
Run Code Online (Sandbox Code Playgroud)
知道如何在Pandas中实现这一目标吗?
我也尝试过,它有效。如果我有其他选择的话会更好。
from collections import Counter
print(Counter(kmeans_model.labels_))
Run Code Online (Sandbox Code Playgroud)
提前致谢。
k-means ×10
python ×4
scikit-learn ×4
r ×2
apache-spark ×1
matlab ×1
nlp ×1
pandas ×1
pyspark ×1
python-3.x ×1
statistics ×1