坐标下降和子梯度的解释

sha*_*han 7 machine-learning mathematical-optimization gradient-descent

如何在套索的背景下轻松解释坐标下降和次梯度解决方案.

一个直观的解释后面的证明将是有帮助的.

Ami*_*mir 4

F(W)假设您有一个具有K多个变量/参数w( ) 的多元函数w_1, w_2, w_3, ..., w_k。参数是旋钮,目标是以F 最小化函数 的方式更改这些旋钮F。坐标下降是一种贪婪方法,即在每次迭代中更改参数值w_i以最小化F。它非常容易实现,并且像梯度下降一样,它可以保证F每次迭代最小化并达到局部最小值。

在此输入图像描述

图片是通过Bing图片搜索从网上借来的

如上图所示,该函数F有两个参数xy。在每次迭代中,两个参数都更改固定值c,并且在新点评估函数的值。如果该值较高并且目标是最小化函数,则所选参数的更改将相反。然后对第二个参数执行相同的过程。这是算法的一次迭代。

使用坐标下降的一个优点是解决计算函数梯度成本高昂的问题。

来源

  • “如果函数是凸函数,则次梯度就是梯度本身”——这是不正确的。例如,函数 f(x)=|x| 是凸的,但在 x=0 时,[-1,1] 范围内的每个点都是次梯度。应该是:如果函数在 x0 ==> 处可微,唯一的次梯度就是梯度。 (2认同)