Küb*_*tlu 4 python machine-learning scikit-learn grid-search
Gridsearhcv使用StratifiedKFold或KFold.所以我的问题是,在使用gridsearch之前,我应该将数据拆分为训练和测试,然后只对测试数据进行拟合吗?我不确定是否有必要因为cv方法已经拆分了数据,但我已经看到了一些事先拆分数据的例子.
谢谢.
Mak*_*ich 10
GridSearchCV将获取您提供的数据,将其拆分为Train和CV集,并使用CV集搜索最佳超参数的训练算法.如果需要,您可以指定不同的拆分策略(例如拆分比例).
但是,当您执行关于数据集的超参数调整信息仍会"泄漏"到算法中时.
因此,我建议采取以下方法:
1)获取原始数据集并将一些数据作为测试集(例如,10%)
2)对剩余的90%使用网格搜索.这里将通过算法为您完成拆分.
3)在获得最佳超参数后,在#1的测试集上对其进行测试,以获得对新数据所期望的性能的最终估计.