Hig*_*ler 0 python scikit-learn
我正在使用scikit-learn.我想聚集一个6GB的文档数据集并找到文档集群.
我只有4Gb内存.有没有办法让k-means在scikit-learn中处理大型数据集?
谢谢,如果您有任何疑问,请与我们联系.
Fre*_*Foo 6
使用MiniBatchKMeans连同HashingVectorizer; 这样,您可以在数据的单次传递中学习集群模型,在您进行或第二次传递时分配集群标签.有一个演示MBKM 的示例脚本.
MiniBatchKMeans
HashingVectorizer
归档时间:
11 年,12 月 前
查看次数:
1715 次
最近记录: