如何在执行scikit-learn的剪影评分时修复MemoryError?

Thi*_*Bao 19 memory cluster-analysis machine-learning scikit-learn

我运行聚类算法,并希望通过在scikit-learn中使用轮廓得分来评估结果.但是在scikit-learn中,它需要计算距离矩阵:distance = pairwise_distances(X,metric = metric,**kwds)

由于我的数据是300K的顺序,我的内存是2GB,结果是内存不足.我无法评估聚类结果.

有谁知道如何克服这个问题?

小智 25

sample_size调用中的参数设置为silhouette_score小于300K的某个值.使用此参数将对数据点进行采样X并计算其中的数据点silhouette_score而不是整个数组.