我是聚类算法的新手。我有一个电影数据集,包含 200 多部电影和 100 多个用户。所有用户都至少评价了一部电影。值 1 表示好,0 表示坏,如果注释者别无选择,则值为空白。
我想根据相似的用户的评论对他们进行聚类,这样的想法是,将相似电影评为良好的用户也可能会将同一聚类中没有任何用户评为良好的电影评为良好。我使用余弦相似度度量和 k 均值聚类。csv文件如下所示:
UserID M1 M2 M3 ............... M200
user1 1 0 0
user2 0 1 1
user3 1 1 1
.
.
.
.
user100 1 0 1
Run Code Online (Sandbox Code Playgroud)
我面临的问题是我不知道如何找到该数据集的最佳簇数,然后绘制这些簇的图表。我用 k 均值对它们进行聚类,这没有问题,但我想知道该数据集最稳定或最佳的聚类数量。
我将不胜感激一些帮助..
python cluster-analysis k-means euclidean-distance cosine-similarity