hclust大小限制？

Question

我是R.的新手.我正在尝试在大约50K项目上运行hclust().我有10列要比较和50K行数据.当我尝试分配距离矩阵时,我得到:"无法分配5GB的矢量".

这有尺寸限制吗？如果是这样,我该如何做一个这么大的东西？

编辑

我最终增加了max.limit并将机器的内存增加到8GB,这似乎已经修复了它.

Answer 1

经典的分层聚类方法O(n^3)在运行时和O(n^2)内存复杂性方面.所以是的,它们对大型数据集的扩展非常糟糕.显然,任何需要物化距离矩阵的东西都在O(n^2)或更糟.

请注意,有一些层次聚类的特殊化,例如SLINK和CLINK,它们O(n^2)可能也只需要O(n)内存.

您可能希望研究更现代的聚类算法.任何运行O(n log n)或更好的东西应该适合你.不使用层次聚类有很多充分的理由:通常它对噪声非常敏感(即它不知道如何处理异常值)并且结果很难解释为大数据集(树状图很好,但是仅适用于小型数据集).