Lon*_*guy 55 machine-learning mathematical-optimization data-mining newtons-method gradient-descent
我理解Gradient Descent的作用.基本上它试图通过缓慢向下移动曲线来向局部最优解.我想了解计划梯度下降和牛顿方法之间的实际差异是什么?
从维基百科,我读了这条短线"牛顿的方法使用曲率信息来采取更直接的路线." 这直觉意味着什么?
Flo*_*ker 56
在局部最小值(或最大值)处x,目标函数的导数f消失:( f'(x) = 0假设足够平滑f).
梯度下降试图x通过使用来自一阶导数的信息来找到这样的最小值f:它仅仅遵循当前点的最陡下降.这就像把球滚到图表上f直到它休息(忽略惯性).
牛顿方法尝试通过近似线性函数找到x满足的点,然后明确地求解该函数的根(这称为牛顿的根寻找方法).根本不一定是根,但在许多情况下它是一个很好的猜测(维基百科关于牛顿根发现方法的文章有关于收敛标准的更多信息).在逼近时,牛顿的方法利用(曲率).这意味着它对平滑度有更高的要求,但它也意味着(通过使用更多信息)它通常会更快地收敛.f'(x) = 0f'ggf'f'f''ff
das*_*ick 10
简单地说,梯度下降你只需向你认为零点的位置迈出一小步,然后重新计算; 牛顿的方法,你一路走到那里.