使用scikit-learn处理带有大数据集6gb的K-means?

Hig*_*ler 0 python scikit-learn

我正在使用scikit-learn.我想聚集一个6GB的文档数据集并找到文档集群.

我只有4Gb内存.有没有办法让k-means在scikit-learn中处理大型数据集?

谢谢,如果您有任何疑问,请与我们联系.

Fre*_*Foo 6

使用MiniBatchKMeans连同HashingVectorizer; 这样,您可以在数据的单次传递中学习集群模型,在您进行或第二次传递时分配集群标签.有一个演示MBKM 的示例脚本.