坐标下降和子梯度的解释

Question

坐标下降和子梯度的解释

sha*_*han 7 machine-learning mathematical-optimization gradient-descent

如何在套索的背景下轻松解释坐标下降和次梯度解决方案.

一个直观的解释后面的证明将是有帮助的.

Answer 1

F(W)假设您有一个具有K多个变量/参数w( ) 的多元函数w_1, w_2, w_3, ..., w_k。参数是旋钮，目标是以F 最小化函数的方式更改这些旋钮F。坐标下降是一种贪婪方法，即在每次迭代中更改参数值w_i以最小化F。它非常容易实现，并且像梯度下降一样，它可以保证F每次迭代最小化并达到局部最小值。

图片是通过Bing图片搜索从网上借来的

如上图所示，该函数F有两个参数x和y。在每次迭代中，两个参数都更改固定值c，并且在新点评估函数的值。如果该值较高并且目标是最小化函数，则所选参数的更改将相反。然后对第二个参数执行相同的过程。这是算法的一次迭代。

使用坐标下降的一个优点是解决计算函数梯度成本高昂的问题。

来源

“如果函数是凸函数，则次梯度就是梯度本身”——这是不正确的。例如，函数 f(x)=|x| 是凸的，但在 x=0 时，[-1,1] 范围内的每个点都是次梯度。应该是：如果函数在 x0 ==> 处可微，唯一的次梯度就是梯度。 (2认同)

归档时间：	10 年，1 月前
查看次数：	1046 次
最近记录：	10 年，1 月前