pns*_*lva 5 python machine-learning data-mining scikit-learn
我正在使用scikit-learn来集中文本文档.我正在使用CountVectorizer,TfidfTransformer和MiniBatchKMeans这两个类来帮助我做到这一点.新文本文档一直添加到系统中,这意味着我需要使用上面的类来转换文本并预测集群.我的问题是:我应该如何将数据存储在磁盘上?我应该简单地挑选矢量化器,变换器和kmeans对象吗?我应该保存数据吗?如果是这样,我如何将它添加回矢量器,变换器和kmeans对象?
任何帮助将不胜感激
这取决于你想做什么.
如果要在训练集上找到一些固定的聚类中心,然后在以后重新使用它们来计算新数据的聚类分配,然后对模型进行酸洗(或者只保存矢量化器的词汇表以及其他模型构造函数参数和聚类中心位置)没问题.
如果您想要使用新数据进行聚类,您可能希望使用新数据+旧数据的并集重新训练整个管道,以使矢量化程序的词汇表能够为新数据构建新功能(维度)单词,让聚类算法找到更好地匹配完整数据集结构的聚类中心.
请注意,将来我们将提供散列矢量化器(例如,参见哈希变换器上的这个拉取请求作为第一个构建块),因此不再需要存储词汇表(但是你将失去反省"意义"的能力) "特征维度".
至于酸洗模型和使用你自己的参数表示他们的参数我已经在你上一个问题中回答了这一部分: 坚持Tf-Idf数据