为什么 DBSCAN 聚类在电影镜头数据集上返回单个聚类？

Question

为什么 DBSCAN 聚类在电影镜头数据集上返回单个聚类？

T3J*_*J45 4 python cluster-analysis pandas dbscan

场景：

我正在对电影镜头数据集执行聚类，我有两种格式的数据集：

旧格式：

uid iid rat
941 1   5
941 7   4
941 15  4
941 117 5
941 124 5
941 147 4
941 181 5
941 222 2
941 257 4
941 258 4
941 273 3
941 294 4

Run Code Online (Sandbox Code Playgroud)

新格式：

uid 1               2               3               4
1   5               3               4               3
2   4               3.6185548023    3.646073985     3.9238342172
3   2.8978348799    2.6692556753    2.7693015618    2.8973463681
4   4.3320762062    4.3407749532    4.3111995162    4.3411425423
940 3.7996234581    3.4979386925    3.5707888503    2
941 5               NaN             NaN             NaN
942 4.5762594612    4.2752554573    4.2522440019    4.3761477591
943 3.8252406362    5               3.3748860659    3.8487417604

Run Code Online (Sandbox Code Playgroud)

我需要使用 KMeans、DBSCAN 和 HDBSCAN 执行聚类。使用 KMeans，我可以设置和获取集群。

问题

问题仅在 DBSCAN 和 HDBSCAN 中存在，我无法获得足够数量的集群（我知道我们无法手动设置集群）

尝试的技术：

使用IRIS data-set 进行了尝试，我发现其中不包括Species。显然，这是在字符串中，此外还需要预测，并且该数据集一切正常（代码片段 1）
尝试使用旧格式的Movie Lens 100K数据集（有和没有 UID），因为我尝试了一个类比，UID == SPECIES，因此尝试没有它。（片段 2）
用新格式（有和没有 UID）尝试过相同的结果，但结果以相同的风格结束。

片段 1：

print "\n\n FOR IRIS DATA-SET:"
from sklearn.datasets import load_iris

iris = load_iris()
dbscan = DBSCAN()

d = pd.DataFrame(iris.data)
dbscan.fit(d)
print "Clusters", set(dbscan.labels_)

Run Code Online (Sandbox Code Playgroud)

片段 1（输出）：

FOR IRIS DATA-SET:
Clusters set([0, 1, -1])
Out[30]: 
array([ 0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,
        0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,
        0,  0,  0,  0,  0,  0,  0, -1,  0,  0,  0,  0,  0,  0,  0,  0,  1,
        1,  1,  1,  1,  1,  1, -1,  1,  1, -1,  1,  1,  1,  1,  1,  1,  1,
       -1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,
        1,  1, -1,  1,  1,  1,  1,  1, -1,  1,  1,  1,  1, -1,  1,  1,  1,
        1,  1,  1, -1, -1,  1, -1, -1,  1,  1,  1,  1,  1,  1,  1, -1, -1,
        1,  1,  1, -1,  1,  1,  1,  1,  1,  1,  1,  1, -1,  1,  1, -1, -1,
        1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1])

Run Code Online (Sandbox Code Playgroud)

片段 2：

import pandas as pd
from sklearn.cluster import DBSCAN

data_set = pd.DataFrame

ch = int(input("Extended Cluster Methods for:\n1. Main Matrix IBCF \n2. Main Matrix UBCF\nCh:"))
if ch is 1:
    data_set = pd.read_csv("MainMatrix_IBCF.csv")
    data_set = data_set.iloc[:, 1:]
    data_set = data_set.dropna()
elif ch is 2:
    data_set = pd.read_csv("MainMatrix_UBCF.csv")
    data_set = data_set.iloc[:, 1:]
    data_set = data_set.dropna()
else:
    print "Enter Proper choice!"

print "Starting with DBSCAN for Clustering on\n", data_set.info()

db_cluster = DBSCAN()
db_cluster.fit(data_set)
print "Clusters assigned are:", set(db_cluster.labels_)

Run Code Online (Sandbox Code Playgroud)

片段 2（输出）：

Extended Cluster Methods for:
1. Main Matrix IBCF 
2. Main Matrix UBCF
Ch:>? 1
Starting with DBSCAN for Clustering on
<class 'pandas.core.frame.DataFrame'>
Int64Index: 942 entries, 0 to 942
Columns: 1682 entries, 1 to 1682
dtypes: float64(1682)
memory usage: 12.1 MB
None
Clusters assigned are: set([-1])

Run Code Online (Sandbox Code Playgroud)

正如所见，它只返回 1 个集群。我想听听我做错了什么。

Answer 1

Ano*_*sse 5

您需要选择合适的参数。如果 epsilon 太小，一切都会变成噪音。sklearn不应该有这个参数的默认值，需要为每个数据集选择不同的值。

您还需要预处理数据。

用毫无意义的 kmeans 获得“集群”是微不足道的......

不要只调用随机函数。你需要明白你在做什么，否则你只是在浪费时间。

阅读 DBSCAN 论文。参数记录在那里。如果您使用欧几里德距离，预处理类似于使 kmeans 返回*有意义的*结果所需的操作（但与 kmeans 相比，您可以使用与您的神秘目标更相关的其他距离）。 (3认同)

Answer 2

T3J*_*J45 5

正如@faraway 和@Anony-Mousse 所指出的，解决方案在数据集上比编程更数学化。

终于可以弄清楚集群了。就是这样：

db_cluster = DBSCAN(eps=9.7, min_samples=2, algorithm='ball_tree', metric='minkowski', leaf_size=90, p=2)
arr = db_cluster.fit_predict(data_set)
print "Clusters assigned are:", set(db_cluster.labels_)

uni, counts = np.unique(arr, return_counts=True)
d = dict(zip(uni, counts))
print d

Run Code Online (Sandbox Code Playgroud)

Epsilon 和 Out-lier 概念从SO 中得到了更多启发：如何选择 eps 和 minPts（DBSCAN 算法的两个参数）以获得有效结果？.

归档时间：	8 年前
查看次数：	9214 次
最近记录：	5 年，6 月前