scikit-learn:使用DBSCAN聚类文本文档

Question

scikit-learn:使用DBSCAN聚类文本文档

Chr*_*ian 20 cluster-analysis machine-learning data-mining dbscan scikit-learn

我正在尝试使用scikit-learn来集群文本文档.总的来说,我找到了解决办法,但我遇到了具体问题.我发现的大多数例子都说明了使用scikit-learn和k-means作为聚类算法的聚类.在我的设置中采用k-means这些例子原则上是有效的.但是,k-means不适合,因为我不知道簇的数量.从我到目前为止所读到的内容 - 如果需要请在这里纠正我 - 在我的情况下,DBSCAN或MeanShift似乎更合适.scikit-learn网站提供了每个群集算法的示例.现在的问题是,对于DBSCAN和MeanShift,我得到了我无法理解的错误,更不用解决了.

我的最小代码如下:

docs = []
for item in [database]:
    docs.append(item)

vectorizer = TfidfVectorizer(min_df=1)
X = vectorizer.fit_transform(docs)

X = X.todense() # <-- This line was needed to resolve the isse

db = DBSCAN(eps=0.3, min_samples=10).fit(X)
...

Run Code Online (Sandbox Code Playgroud)

(我的文档已经处理完毕,即已删除了停用词并且已应用了Porter Stemmer.)

当我运行此代码时,我在实例化DBSCAN并调用时收到以下错误fit():

...
File "/usr/local/lib/python2.7/dist-packages/sklearn/cluster/dbscan_.py", line 248, in fit
clust = dbscan(X, **self.get_params())
File "/usr/local/lib/python2.7/dist-packages/sklearn/cluster/dbscan_.py", line 86, in dbscan
n = X.shape[0]
IndexError: tuple index out of range

Run Code Online (Sandbox Code Playgroud)

单击该行dbscan_.py引发错误,我注意到以下行

...
X = np.asarray(X)
n = X.shape[0]
...

Run Code Online (Sandbox Code Playgroud)

当我在我的代码中直接使用这些行进行测试时,我得到了同样的错误.我真的不知道np.asarray(X)这里做了什么,但在命令之后X.shape = ().因此X.shape[0]炸弹 - 之前,X.shape[0]正确地指的是文件的数量.出于好奇,我从中删除X = np.asarray(X)了dbscan_.py.当我这样做时,有些东西计算量很大.但几秒钟后,我又收到了一个错误:

...
File "/usr/lib/python2.7/dist-packages/scipy/sparse/csr.py", line 214, in extractor
(min_indx,max_indx) = check_bounds(indices,N)
File "/usr/lib/python2.7/dist-packages/scipy/sparse/csr.py", line 198, in check_bounds
max_indx = indices.max()
File "/usr/lib/python2.7/dist-packages/numpy/core/_methods.py", line 17, in _amax
out=out, keepdims=keepdims)
ValueError: zero-size array to reduction operation maximum which has no identity

Run Code Online (Sandbox Code Playgroud)

总之,我不知道如何让DBSCAN工作,或者我可能错过了什么.

Answer 1

cyn*_*ile 14

从2015年1月开始,支持DBSCAN的稀疏表示.

我将sklearn升级到了0.16.1,它在文本上对我有用.

Answer 2

Ano*_*sse 7

sklearn中的实现似乎假设您正在处理有限的向量空间,并希望找到数据集的维度.文本数据通常表示为稀疏向量,但现在具有相同的维度.

您的输入数据可能不是数据矩阵,但是sklearn实现需要它们是一个.

您需要找到不同的实现.也许尝试在ELKI中实现,这非常快,并且不应该有这个限制.

你需要花一些时间来理解相似性.对于DBSCAN,你必须选择epsilon的方式,有意义的数据.没有经验法则; 这是特定于域的.因此,首先需要确定哪个相似性阈值意味着两个文档是相似的.

Mean Shift实际上可能需要您的数据是固定维度的向量空间.

这基本上就是我想说的.除了技术上**DBSCAN不需要密集矩阵**.这是sklearn版本,因为我不知道的原因. (4认同)
我发现了问题：矩阵X的预期格式在k均值和DBSCAN之间有所不同。两者都期望一个（n_sample，n_features）矩阵，而k-means则期望一个备用矩阵，而DBSCAN则期望一个密集矩阵。因此，如果我在调用`fit（X）`之前添加`X = X.todense（）`，则它可以工作。 (2认同)

归档时间：	11 年，4 月前
查看次数：	9676 次
最近记录：	9 年，1 月前