从 K 折交叉验证中选择哪个模型

av *_*iek 9 validation statistics machine-learning cross-validation statistics-bootstrap

我正在阅读有关交叉验证以及如何使用它来选择最佳模型和估计参数的内容,但我并没有真正理解它的含义。

假设我建立一个线性回归模型并进行 10 倍交叉验证,我认为这 10 个中的每一个都会有不同的系数值,现在我应该从 10 个不同的系数中选择哪个作为我的最终模型或估计参数。

或者我们使用交叉验证只是为了找到平均误差(在我们的例子中是 10 个模型的平均值)并与另一个模型进行比较?

sho*_*aco 9

如果您构建一个线性回归模型并进行 10 倍交叉验证,实际上这 10 个模型中的每一个都会有不同的系数值。使用交叉验证的原因是,您可以对线性模型的错误有一个可靠的了解,而不是仅在一次训练/测试分割上对其进行评估,这可能是不幸的,也可能是太幸运的。CV 更加稳健,因为十次分裂不可能都是十次幸运或全部十次不幸。

然后,您的最终模型将在整个训练集上进行训练 - 这就是您的最终系数的来源。


小智 2

交叉验证用于查看模型预测的准确性。正如您可能知道的那样,通过拆分相同的数据来对相同的数据进行多次测试是非常明智的(即,如果您没有足够的训练数据,那么这很好用)。

例如,它可用于确保您不会过度拟合该函数。因此,基本上,当您通过交叉验证完成函数后,您会尝试您的函数,如果您发现错误在某个地方增长很多,您将返回调整参数。

编辑: 阅读维基百科以更深入地了解其工作原理:https://en.wikipedia.org/wiki/Cross-validation_%28statistics%29