mUo*_*oro 6 opencv machine-learning training-data random-forest
我正在使用随机森林算法作为我论文项目的分类器.训练集由数千个图像组成,并且对于每个图像,约2000个像素被采样.对于每个像素,我有成千上万的功能.由于我目前的硬件限制(8G的ram,可能可扩展到16G),我能够在内存中只为一个图像拟合样本(即每像素的特征).我的问题是:是否可以多次调用火车方法,每次使用不同的图像样本,并在每次调用时自动更新统计模型?我对变量重要性特别感兴趣,因为在我使用整个功能集训练完整的训练集之后,我的想法是将功能的数量从几十万减少到大约2000,只保留最重要的功能.
感谢Daniele的任何建议
我认为该算法不支持增量训练。您可以考虑在训练之前使用其他特征缩减方法来减小描述符的大小。或者估计所有训练图像中的随机像素子集的变量重要性,尽可能多地填充到你的记忆中......