GridsearchCV具有大数据集

Jef*_*y04 5 python python-3.x scikit-learn

我正在尝试GridSearchCV使用庞大的数据集构建分类器(2M记录*500个功能并且正在增长,预计总共至少需要1500万个).但是,我发现GridSearchCV.fitX和Y不需要生成器.问题是我没有完成任务的所有内存空间.我使用的分类器是SGDClassifier(支持partial_fit).

在此之前,我将使用更小的数据集子集GridSearchCV,然后使用整个数据集重新训练最佳分类器.这是使用GridSearchCV的正确方法吗?