高维聚类 + 一些基本的东西

rup*_*npa 3 algorithm cluster-analysis dimension bigdata

我一直在研究支持向量机(SVM),最近开始阅读关于聚类的文章。在使用 SVM 时,我们不需要担心数据的维度大小,但是,我了解到在聚类中,由于“维度诅咒”,维度大小是一个大问题。此外,稀疏性和数据大小也会极大地影响您选择的聚类算法。所以我有点理解聚类没有“最佳算法”,这完全取决于数据的性质。

话虽如此,我想问一些关于聚类的非常基本的问题。

  1. 当人们说“高维”时,他们具体是什么意思??100d是高维吗??还是这取决于您拥有的数据类型?

  2. 我在这个网站上看到过类似的答案,“在 100 维的数据上使用 k-means 是非常常见的”,如果这是真的,这是否适用于使用与 k 相同的距离度量的其他聚类算法-方法??

  3. Rui Xu等人在论文“Survey of Clustering Algorithms”(http://goo.gl/WQyuxo)的pp.649中,表格显示CURE具有“处理高维数据的能力”,并且想知道是否有人对他们谈论的维度有多高有任何想法。

  4. 如果我想对从初始大数据中随机采样的足够大小的高维数据进行聚类,使用什么样的算法比较合适??我知道基于密度的算法(例如 DBSCAN)在随机采样下表现不佳。

  5. 谁能告诉我 CURE 在高维数据上的表现如何?直觉上,我猜考虑到“维度的治愈”,我猜CURE的表现不是很好,但是,如果有一些详细的结果就太好了。

  6. 是否有任何网站/论文/教科书解释聚类算法的优缺点?我看过一些关于基本算法优缺点的论文,即 k-means、层次聚类、DBSCAN 等,但想了解更多其他算法,如 CURE、CLIQUE、CHAMELEON 等。

抱歉一下子问这么多问题!!如果有人能回答我的任何一个问题,那就太棒了。另外,如果我的问题陈述不当或问了一个完全没有意义的问题,请不要犹豫告诉我。如果有人知道详细介绍这些主题的关于聚类的优秀教科书/调查论文,请告诉我!!先感谢您。

Ano*_*sse 5

您可能对本次调查感兴趣:

Kriegel, HP, Kröger, P., & Zimek, A. (2009)。
聚类高维数据:子空间聚类、基于模式的聚类和相关聚类的调查。
ACM 数据知识发现交易 (TKDD), 3(1), 1。

其中一位作者编写了 DBSCAN,因此它可能会帮助您阐明 DBSCAN 问题。

100维数据可以是高维数据。如果它不是sparse。对于 NLP 人来说,100d 小得可笑,但他们的数据很特别。它本质上源自二进制性质(单词存在或不存在),因此它实际上每个维度的信息不到 1 位……如果您有密集的100 维数据,您通常会遇到麻烦。

同一作者的相关/后续调查中有一些不错的数字:

Zimek, A., Schubert, E., & Kriegel, HP (2012)。
高维数值数据中无监督异常值检测的调查。
统计分析和数据挖掘,5(5),363-387。

他们已经很好地分析了这些数据的距离函数的行为。本质是:高维数据可以是难的——也可以是容易的;这一切都取决于信噪比。如果你只有携带信号的维度,额外的维度可以让你的问题变得更容易。如果额外的维度让人分心,事情就会崩溃。

这也可以解释为什么 SVM 的“内核技巧”有效——它并没有真正添加信息内容;增加的维度只是虚拟的,而不是内在的。您有更大的搜索和解决方案空间;但是你的数据仍然在这个空间内的低维流形上。

k-means 结果在高维数据中往往变得毫无意义。在许多情况下,它们仍然“足够好”;因为通常质量并不重要,任何凸分区都可以(例如,图像相似性的词袋方法似乎并没有通过“更好的”k 均值聚类得到显着改善)

CURE,它似乎也使用平方和(如 k 均值)应该遇到同样的问题。对于大数据,所有平方和值变得越来越相似(即任何分区都与其他分区一样好)。

是的,有很多教科书、调查和研究试图比较聚类算法。但最终涉及的因素太多了:你的数据是什么样子的,你是如何预处理的,你有没有精心选择和适当的距离度量,你的实现有多好,你有没有索引加速一些算法等 - 没有经验法则;你将不得不尝试一些事情。