cross_val_score和cross_val_predict之间的区别

Question

cross_val_score和cross_val_predict之间的区别

Bob*_*egi 13 python regression machine-learning scikit-learn cross-validation

我想计算回归模型建立与使用交叉验证和感到困惑,这两个功能scikitlearn cross_val_score和cross_val_predict我应该使用.一种选择是:

cvs = DecisionTreeRegressor(max_depth = depth)
scores = cross_val_score(cvs, predictors, target, cv=cvfolds, scoring='r2')
print("R2-Score: %0.2f (+/- %0.2f)" % (scores.mean(), scores.std() * 2))

Run Code Online (Sandbox Code Playgroud)

另一个,使用标准的cv预测r2_score:

cvp = DecisionTreeRegressor(max_depth = depth)
predictions = cross_val_predict(cvp, predictors, target, cv=cvfolds)
print ("CV R^2-Score: {}".format(r2_score(df[target], predictions_cv)))

Run Code Online (Sandbox Code Playgroud)

我认为这两种方法都是有效的,并给出类似的结果.但这只是小k倍的情况.虽然r ^ 2对于10倍-cv大致相同,但是对于使用"cross_vall_score"的第一版本的情况,对于更高的k值,它变得越来越低.第二个版本大多不受折叠次数变化的影响.

这种行为是否可以预期,我是否对SKLearn中的CV缺乏了解？

Answer 1

Viv*_*mar 17

cross_val_score返回测试折叠的得分,其中cross_val_predict返回测试折叠的预测y值.

对于cross_val_score(),您使用的是输出的平均值,这将受到折叠数量的影响,因为它可能有一些折叠可能具有高误差(不正确).

然而,cross_val_predict()对于输入中的每个元素,返回当它在测试集中时为该元素获得的预测.[请注意,只能使用将测试集中的所有元素分配一次的交叉验证策略].因此,增加折叠数量只会增加测试元素的训练数据,因此其结果可能不会受到太大影响.

希望这可以帮助.随意提出任何疑问.

编辑:在评论中回答问题

请看下面的答案如何cross_val_predict工作:

/sf/answers/2906747791/

我认为这cross_val_predict会过度适应,因为随着折叠的增加,更多的数据将用于火车,更少的数据用于测试.因此,结果标签更依赖于训练数据.同样如上所述,对一个样本的预测仅进行一次,因此可能更容易分裂数据.这就是为什么大多数地方或教程建议使用cross_val_scorefor分析.

Answer 2

小智 8

所以这个问题也困扰着我，虽然其他人提出了很好的观点，但他们并没有回答 OP 问题的所有方面。

真正的答案是：增加 k 的分数差异是由于选择的度量 R2（决定系数）。对于例如 MSE、MSLE 或 MAE，使用cross_val_score或不会有任何区别cross_val_predict。

参见R2的定义：

R^2 = 1 - (MSE(ground truth, prediction)/ MSE(ground truth, mean(ground truth) ))

粗体部分解释了为什么随着 k 的增加分数开始不同：我们拥有的分割越多，测试折叠中的样本越少，测试折叠均值的方差越大。相反，对于较小的 k，测试折叠的均值与完整的真实均值相差不大，因为样本量仍然足够大以具有较小的方差。

证明：

import numpy as np
from sklearn.metrics import mean_absolute_error as mae
from sklearn.metrics import mean_squared_log_error as msle, r2_score

predictions = np.random.rand(1000)*100
groundtruth = np.random.rand(1000)*20

def scores_for_increasing_k(score_func):
    skewed_score = score_func(groundtruth, predictions)
    print(f'skewed score (from cross_val_predict): {skewed_score}')
    for k in (2,4,5,10,20,50,100,200,250):
        fold_preds = np.split(predictions, k)
        fold_gtruth = np.split(groundtruth, k)
        correct_score = np.mean([score_func(g, p) for g,p in zip(fold_gtruth, fold_preds)])

        print(f'correct CV for k={k}: {correct_score}')

for name, score in [('MAE', mae), ('MSLE', msle), ('R2', r2_score)]:
    print(name)
    scores_for_increasing_k(score)
    print()

Run Code Online (Sandbox Code Playgroud)

输出将是：

MAE
skewed score (from cross_val_predict): 42.25333901481263
correct CV for k=2: 42.25333901481264
correct CV for k=4: 42.25333901481264
correct CV for k=5: 42.25333901481264
correct CV for k=10: 42.25333901481264
correct CV for k=20: 42.25333901481264
correct CV for k=50: 42.25333901481264
correct CV for k=100: 42.25333901481264
correct CV for k=200: 42.25333901481264
correct CV for k=250: 42.25333901481264

MSLE
skewed score (from cross_val_predict): 3.5252449697327175
correct CV for k=2: 3.525244969732718
correct CV for k=4: 3.525244969732718
correct CV for k=5: 3.525244969732718
correct CV for k=10: 3.525244969732718
correct CV for k=20: 3.525244969732718
correct CV for k=50: 3.5252449697327175
correct CV for k=100: 3.5252449697327175
correct CV for k=200: 3.5252449697327175
correct CV for k=250: 3.5252449697327175

R2
skewed score (from cross_val_predict): -74.5910282783694
correct CV for k=2: -74.63582817089443
correct CV for k=4: -74.73848598638291
correct CV for k=5: -75.06145142821893
correct CV for k=10: -75.38967601572112
correct CV for k=20: -77.20560102267272
correct CV for k=50: -81.28604960074824
correct CV for k=100: -95.1061197684949
correct CV for k=200: -144.90258384605787
correct CV for k=250: -210.13375041871123

Run Code Online (Sandbox Code Playgroud)

当然，还有一个效果这里没有展示，是别人提到的。随着K，还有更多型号的培训更多的样本和较少的样本验证，这将影响最终的分数，但这不是由之间的选择引起的cross_val_score和cross_val_predict。

Answer 3

The*_*ian 5

我认为通过检查它们的输出可以清楚地看出差异。考虑这个片段：

# Last column is the label
print(X.shape)  # (7040, 133)

clf = MLPClassifier()

scores = cross_val_score(clf, X[:,:-1], X[:,-1], cv=5)
print(scores.shape)  # (5,)

y_pred = cross_val_predict(clf, X[:,:-1], X[:,-1], cv=5)
print(y_pred.shape)  # (7040,)

Run Code Online (Sandbox Code Playgroud)

注意形状：为什么会这样？ scores.shape长度为 5，因为它是通过 5 倍交叉验证计算得出的分数（请参阅参数cv=5）。因此，为每次折叠计算单个实际值。该值是分类器的分数：

给定真实标签和预测标签，预测器在特定折叠中有多少答案是正确的？

在这种情况下，输入中给出的 y 标签被使用两次：从数据中学习并评估分类器的性能。

另一方面，y_pred.shape长度为 7040，这是数据集的形状。这是输入数据集的长度。这意味着每个值不是在多个值上计算的分数，而是单个值：分类器的预测：

给定输入数据及其标签，分类器对特定折叠的测试集中的特定示例的预测是什么？

请注意，您不知道使用了哪个折叠：每个输出都是根据某个折叠的测试数据计算的，但您无法判断是哪个（至少从该输出中）。

在这种情况下，标签仅使用一次：训练分类器。您的工作是将这些输出与真实输出进行比较以计算分数。如果您只是对它们进行平均，就像您所做的那样，输出不是分数，而只是平均预测。

归档时间：	8 年，8 月前
查看次数：	21560 次
最近记录：	6 年，5 月前