Gradient Descent和Newton's Gradient Descent有什么区别?

Lon*_*guy 55 machine-learning mathematical-optimization data-mining newtons-method gradient-descent

我理解Gradient Descent的作用.基本上它试图通过缓慢向下移动曲线来向局部最优解.我想了解计划梯度下降和牛顿方法之间的实际差异是什么?

从维基百科,我读了这条短线"牛顿的方法使用曲率信息来采取更直接的路线." 这直觉意味着什么?

Flo*_*ker 56

在局部最小值(或最大值)处x,目标函数的导数f消失:( f'(x) = 0假设足够平滑f).

梯度下降试图x通过使用来自一阶导数的信息来找到这样的最小值f:它仅仅遵循当前点的最陡下降.这就像把球滚到图表上f直到它休息(忽略惯性).

牛顿方法尝试通过近似线性函数找到x满足的点,然后明确地求解该函数的根(这称为牛顿的根寻找方法).根本不一定是根,但在许多情况下它是一个很好的猜测(维基百科关于牛顿根发现方法的文章有关于收敛标准的更多信息).在逼近时,牛顿的方法利用(曲率).这意味着它对平滑度有更高的要求,但它也意味着(通过使用更多信息)它通常会更快地收敛.f'(x) = 0f'ggf'f'f''ff

  • 我总是看到提到选择“最陡下降”。这意味着什么?这是`f'(x)`的最大负数吗? (2认同)
  • @Chowza:如果您的域是多维的,例如,如果`f`将2D点映射到实数,则任何点处的`f`的梯度不是标量数而是矢量.原因是那时"f"的"陡峭度"取决于你所看到的方向.就像站在山顶上一样:如果你向北望去,这座山可能会非常急剧下降,但对另一个它可能不那么陡峭.因此,选择最陡下降意味着选择导致目标函数发生最大变化的方向. (2认同)

das*_*ick 10

简单地说,梯度下降你只需向你认为零点的位置迈出一小步,然后重新计算; 牛顿的方法,你一路走到那里.

  • 对于非二次函数,“一直”成立吗? (2认同)
  • 是的,对于非二次函数,您只需用线逼近一阶导数.这有点浪漫,但我觉得直觉很好. (2认同)