Jud*_*udy 2 r cluster-analysis data-mining hclust
我是R.的新手.我正在尝试在大约50K项目上运行hclust().我有10列要比较和50K行数据.当我尝试分配距离矩阵时,我得到:"无法分配5GB的矢量".
这有尺寸限制吗?如果是这样,我该如何做一个这么大的东西?
编辑
我最终增加了max.limit并将机器的内存增加到8GB,这似乎已经修复了它.
经典的分层聚类方法O(n^3)在运行时和O(n^2)内存复杂性方面.所以是的,它们对大型数据集的扩展非常糟糕.显然,任何需要物化距离矩阵的东西都在O(n^2)或更糟.
请注意,有一些层次聚类的特殊化,例如SLINK和CLINK,它们O(n^2)可能也只需要O(n)内存.
您可能希望研究更现代的聚类算法.任何运行O(n log n)或更好的东西应该适合你.不使用层次聚类有很多充分的理由:通常它对噪声非常敏感(即它不知道如何处理异常值)并且结果很难解释为大数据集(树状图很好,但是仅适用于小型数据集).
| 归档时间: |
|
| 查看次数: |
4221 次 |
| 最近记录: |