我一直在研究支持向量机(SVM),最近开始阅读关于聚类的文章。在使用 SVM 时,我们不需要担心数据的维度大小,但是,我了解到在聚类中,由于“维度诅咒”,维度大小是一个大问题。此外,稀疏性和数据大小也会极大地影响您选择的聚类算法。所以我有点理解聚类没有“最佳算法”,这完全取决于数据的性质。
话虽如此,我想问一些关于聚类的非常基本的问题。
当人们说“高维”时,他们具体是什么意思??100d是高维吗??还是这取决于您拥有的数据类型?
我在这个网站上看到过类似的答案,“在 100 维的数据上使用 k-means 是非常常见的”,如果这是真的,这是否适用于使用与 k 相同的距离度量的其他聚类算法-方法??
Rui Xu等人在论文“Survey of Clustering Algorithms”(http://goo.gl/WQyuxo)的pp.649中,表格显示CURE具有“处理高维数据的能力”,并且想知道是否有人对他们谈论的维度有多高有任何想法。
如果我想对从初始大数据中随机采样的足够大小的高维数据进行聚类,使用什么样的算法比较合适??我知道基于密度的算法(例如 DBSCAN)在随机采样下表现不佳。
谁能告诉我 CURE 在高维数据上的表现如何?直觉上,我猜考虑到“维度的治愈”,我猜CURE的表现不是很好,但是,如果有一些详细的结果就太好了。
是否有任何网站/论文/教科书解释聚类算法的优缺点?我看过一些关于基本算法优缺点的论文,即 k-means、层次聚类、DBSCAN 等,但想了解更多其他算法,如 CURE、CLIQUE、CHAMELEON 等。
抱歉一下子问这么多问题!!如果有人能回答我的任何一个问题,那就太棒了。另外,如果我的问题陈述不当或问了一个完全没有意义的问题,请不要犹豫告诉我。如果有人知道详细介绍这些主题的关于聚类的优秀教科书/调查论文,请告诉我!!先感谢您。