NCL*_*NCL 10 python nested scikit-learn cross-validation grid-search
我正在努力研究 Sklearn中嵌套与非嵌套 CV的示例。我检查了多个答案,但我仍然对这个例子感到困惑。据我所知,嵌套 CV 旨在使用不同的数据子集来选择分类器的最佳参数(例如 SVM 中的 C)并验证其性能。因此,从数据集 X 中,外部10 倍 CV(为简单起见,n=10)创建了 10 个训练集和 10 个测试集:
(Tr0, Te0),..., (Tr0, Te9)
Run Code Online (Sandbox Code Playgroud)
然后,内部10-CV 将每个外部训练集拆分为 10 个训练集和 10 个测试集:
From Tr0: (Tr0_0,Te_0_0), ... , (Tr0_9,Te0_9)
From Tr9: (Tr9_0,Te_9_0), ... , (Tr9_9,Te9_9)
Run Code Online (Sandbox Code Playgroud)
现在,使用内部 CV,我们可以找到每个外部训练集的最佳C值。这是通过使用内部 CV测试C 的所有可能值来完成的。为该特定外部训练集选择提供最高性能(例如准确度)的值。最后,发现每个外部训练集的最佳C值后,我们可以使用外部测试集计算无偏精度。通过这个过程,用于识别最佳参数(即C)的样本不用于计算分类器的性能,因此我们有一个完全无偏的验证。
Sklearn 页面中提供的示例是:
inner_cv = KFold(n_splits=4, shuffle=True, random_state=i)
outer_cv = KFold(n_splits=4, shuffle=True, random_state=i)
# Non_nested parameter search and scoring
clf = GridSearchCV(estimator=svm, param_grid=p_grid, cv=inner_cv)
clf.fit(X_iris, y_iris)
non_nested_scores[i] = clf.best_score_
# Nested CV with parameter optimization
nested_score = cross_val_score(clf, X=X_iris, y=y_iris, cv=outer_cv)
nested_scores[i] = nested_score.mean()
Run Code Online (Sandbox Code Playgroud)
据我了解,该代码只是使用两个不同的交叉验证(即不同的训练和测试集拆分)来计算分数。他们都使用了整个数据集。所述GridCV识别使用一个(的两个CV)的最佳参数,然后cross_val_score计算,与第二CV,使用最佳参数时的性能。
我是否以错误的方式解释了嵌套简历?我从这个例子中遗漏了什么?
编辑
可以在这篇文章中找到详细的回答。