线性回归中标准化的影响:机器学习

Question

作为我的任务的一部分,我正在处理几个数据集,并使用线性回归找到他们的训练错误.我想知道标准化是否对训练错误有任何影响？我的相关性和RMSE在标准化之前和之后对于数据集来说是相等的.

谢谢,

Answer 1

很容易证明,对于线性回归,如果你只是通过缩放来转换输入数据并不重要(通过a;同样适用于翻译,这意味着X' = aX + b对于真实形式的任何转换a != 0,b都具有相同的属性).

X' = aX

w = (X^TX)X^Ty
w' = (aX^TaX)^-1 aX^Ty
w' = 1/a w

从而

X^Tw = 1/a aX^T w = aX^T 1/a w = X'^Tw'^T

因此,计算误差的投影在缩放之前和之后完全相同,因此任何类型的损失函数(独立于x)都会产生完全相同的结果.

但是,如果缩放输出变量,则错误将发生变化.此外,如果您以更复杂的方式对数据集进行标准化,那么只需乘以一个数字(例如 - 通过白化或几乎任何旋转),您的结果将取决于预处理.如果使用正则化线性回归(岭回归),那么甚至通过恒定事项来缩放输入数据(因为它改变了正则化参数的"含义").