次梯度 subgradient
当优化问题的目标函数不可微的时候,我们就会去考虑梯度的替代品:次梯度。
一些目标函数不可微的凸优化问题,就可以使用次梯度方法来求解。
凸函数有一个很好的性质,那就是任意一点的切平面都位于函数图形的下方。对于凸函数 ,如果
就说 是 这点的次梯度。
函数的梯度是一个向量,注意次梯度方向可能不唯一,所有次梯度构成的集合叫做次微分(subdifferential), 的次微分记作 。
在上面的定义下,凸函数的次微分总是非空,凹函数的次微分是空集。类似地,把式(1)的不等号方向改变可以得到对于凹函数的次微分的定义。
如果要把次梯度的概念推广到一般函数的话,那么会发现,一般函数可能再某个点不存在次梯度(次梯度为空集),而凸函数不会存在这样的问题。在凸函数的定义域的相对内点集上,次梯度集总是非空(凸函数在定义域的边界的连续性比较复杂)。
以一维为例, 在 不一定可导,但是有左导数 ,右导数 ,那么 就是 在 这点的次微分。比如 在 处的次微分就是 。
通过次梯度可以得到一个函数(不管是不是凸的)全局最优解的性质。 如果 ,那么 就是全局最小点。
次梯度方法
次梯度的迭代式如下:
因为次梯度方向可能不是一个下降方向,所以不能使用类似梯度下降法那样的收敛性分析方法。我们仍然假设 的次梯度是有界的,即 .
这样的迭代规则等价于
上式右边是一个关于 的二次函数,在 处取得最小值。上式的意义在于,揭示了迭代过程与一阶近似最小化的联系。
我们关心的是
首先:
由此不难得到:
于是有:
此外:
于是我们可以得到:
在这里,我们让 或者是约束集的直径。
Constant step size
如果我们选择固定步长 ,则
Square summable but not summable
假定步长序列 满足
根据式 ,可知当 时, .
Diminishing step size rule
如果 ,那么
Mirror descent
类似于式 ,将2-范数换成 Bregman divergence,我们容易得到另一种更新的规则:
对上式梯度,得到最优性条件:
假设 是 -强凸函数,则
于是我们成功用 代替了 ,用次梯度的对偶范数的上确界代替了梯度2-范数的上确界。
Piecewise linear
次梯度方法就是沿着次梯度的方向进行迭代的方法。如:
目标函数是分段线性的凹函数,在若干点是不可微的,但是可以计算到 的次梯度,令 ,则
由此可以用次梯度方法来求解。
参考:
【凸优化笔记5】-次梯度方法(Subgradient method)