使用scikit-learn处理带有大数据集6gb的K-means？

Question

我正在使用scikit-learn.我想聚集一个6GB的文档数据集并找到文档集群.

我只有4Gb内存.有没有办法让k-means在scikit-learn中处理大型数据集？

谢谢,如果您有任何疑问,请与我们联系.

Answer 1

使用MiniBatchKMeans连同HashingVectorizer; 这样,您可以在数据的单次传递中学习集群模型,在您进行或第二次传递时分配集群标签.有一个演示MBKM 的示例脚本.