我正在尝试聚集一个大的(Gigabyte)数据集.为了进行聚类,您需要每个点到每个其他点的距离,因此最终得到一个N ^ 2大小的距离矩阵,在我的数据集中,它将是exabytes的数量级.Matlab中的Pdist当然会立即爆炸;)
有没有办法首先对大数据的子集进行聚类,然后可能会对类似的聚类进行一些合并?
我不知道这是否有帮助,但数据是固定长度的二进制字符串,所以我使用汉明距离计算它们的距离(Distance = string1 XOR string2).
matlab cluster-analysis large-data
cluster-analysis ×1
large-data ×1
matlab ×1