Mar*_*ars 7 python scikit-learn
问题的根源很常见:
存在大量的列车数据,这些数据是以块的形式读取的.兴趣点是在分块数据集上顺序拟合所需模型,保持先前拟合的状态.
除了partial_fit()在不同数据上使用sklearn拟合模型之外,还有其他方法吗?或者是否有任何技巧来重写fit()函数代码来为这个问题定制它?还是有可能有人意识到pickle?
有些模型暴露出来partial_fit()而其他模型没有暴露出来是有原因的.每个模型都是不同的机器学习算法,对于许多这些算法,如果不从头开始重新计算模型,就无法添加元素.
因此,如果必须逐步拟合模型,请选择具有的增量模型partial_fit().您可以在此文档页面上找到完整列表.
或者,您可以构建一个集合模型.创建一个单独的Classifier()或Regression()每一块数据.然后,当你需要预测某些东西时,你可以
for classifier in classifiers:
votes[classifier.predict(X)] += 1
prediction = numpy.argmax(votes)
Run Code Online (Sandbox Code Playgroud)
或者,对于回归量
prediction = numpy.mean([regressor.predict(X) for regressor in regressors]
Run Code Online (Sandbox Code Playgroud)