为什么我们在线性回归中使用梯度下降?

Guy*_*ham 7 statistics machine-learning linear-regression

在我最近参加的一些机器学习课程中,我已经介绍了梯度下降以找到线性回归的最佳拟合线.

在一些统计课程中,我了解到我们可以使用统计分析来计算这一行,使用均值和标准差 - 本页详细介绍了这种方法.为什么这种看似更简单的技术没有用于机器学习?

我的问题是,梯度下降是拟合线性模型的首选方法吗?如果是这样,为什么?或者教授是否只是在更简单的设置中使用梯度下降来将该类引入技术?

And*_*ler 13

您给出的示例是一维的,在机器学习中通常不是这种情况,您有多个输入功能.在这种情况下,您需要反转矩阵以使用他们的简单方法,这可能很难或病态.

通常问题被制定为最小二乘问题,这稍微容易一些.有标准的最小二乘解算器可以用来代替梯度下降(通常是).如果数据点的数量非常高,使用标准的最小二乘解算器可能太昂贵了,并且(随机)梯度下降可能会为您提供一个在测试集错误方面与解决方案一样好的解决方案,运行时间要小一个数量级(参见Leon Bottou的这一伟大章节)

如果你的问题很小,可以通过现成的最小二乘解算器有效地解决,你可能不应该做梯度下降.