对偶是优化里非常重要的一个工具。
对偶问题是研究优化问题的有力武器。考虑一个具有标准形式的优化问题:
记整个的可行域为 ,定义上述问题对应的 拉格朗日函数(Lagrangian) 为
其中 称为拉格朗日乘子(Lagrange multiplier),或者对偶变量。
接着,我们定义拉格朗日对偶函数(Lagrange dual function) :
如果拉格朗日函数没有下界,就记 。 是关于 的仿射函数,从而,对偶函数 是一个凹函数,即使原来的优化问题不是凸的。
假设 ,如果 ,我们可以得到:
进而:
因为 对 都成立,对两边取下确界,就有:
是优化问题的最优值。
这说明,原优化问题的最优值是对偶函数的一个上界! 这个性质是接下来提出对偶问题的基本出发点。
如果是一个 maximize 的问题,拉格朗日函数应为:
对偶函数为:
对偶函数可以用来求一个困难问题的界。例如下面这个非凸最优化问题:
它其实是一个组合问题,向量 的每个分量要么是 要么是 。写出它的拉格朗日函数:
对偶函数:
为了得到原问题的一个下界,我们可以取一个特殊的对偶变量:
这时
是对偶可行的。最终我们得到原问题的一个下界:
当然,这个下界也可以将原问题的约束条件放宽成 来得到。
在这里,原问题是一个难解的组合问题,但是对偶问题是一个容易解的SDP。
【重写】
回想一下, 的共轭函数被定义为:
共轭函数与对偶函数具有紧密的关系。考虑以下问题:
它的对偶函数:
同时 的定义域:
一般地,对于某些特殊形式的优化问题,可以通过共轭函数的形式来表示对偶函数。
既然对偶函数的每一个函数值都是原问题的下界,那么是否可以通过计算对偶函数的最大值来逼近原问题的最优值呢?这就导出了拉格朗日对偶问题:
其中 。
求解拉格朗日对偶问题的好处在于,无论原问题是不是凸问题,对偶问题都是凸优化类问题!
对偶问题的约束条件,往往来源于这个定义域的要求!
对偶问题同样会有最优值,我们将称为对偶变量最优值(dual optimal)或者最优拉格朗日乘子(optimal Lagrange multipliers)。
以下列举一些常见优化问题的对偶问题的形式
考虑不等式形式的线性规划:
它的对偶函数:
从而:
所以它的对偶问题是:
以上是不等式形式的对偶。接下来考虑标准形式的线性规划:
对偶函数:
对偶问题:
也可以写成:
这也是锥形式下线性规划标准形式的对偶。
也可以写成不等式形式:
线性规划的不等式形式的对偶问题的形式是等式,而线性规划的等式形式的对偶问题的形式可以写成不等式。
考虑问题:
拉格朗日函数:
从而有对偶函数:
对偶问题:
这是一个无约束的凹函数最大化问题!(自然可以转化为无约束的凸优化问题)。从而我们知道,原问题是约束优化问题,对偶问题可能是无约束的问题!
考虑:
拉格朗日函数:
其中:
在 时, 是正定的,从而:
所以有对偶问题:
【添加一些问题的对偶】
记 是对偶问题的最优值,通过上面的推证,我们有:
这个性质称为弱对偶性,它甚至不要求原问题是凸的。
弱对偶性可以推广到取值为无穷的情况:
- 如果 ,原问题最优值是无界的,则必然有 ,也就是对偶问题不可行。
- 如果 ,对偶问题最优值无界,也必然成立 ,也就是说,原问题不可行。
也可能出现情况:,即原问题和对偶问题都不可行!
如线性规划的原问题:
和对偶问题:
都不可行!
称作对偶间隙(optimal duality gap)。如果 ,我们就称强对偶性成立,这意味着,对偶问题的最优值恰好就是原问题的最优值。因此,如果对偶问题更易求解的话,我们往往能够方便地给原问题提供一个下界。
弱对偶性是一定严格成立的,强对偶性就未必了。
如果原问题是凸的,通常来说强对偶性是会成立的。建立在凸性上的成立强对偶性的条件有很多,我们把这些条件称作:constraint qualifications。
Slater's condition 是强对偶性成立的一个充分条件。如果问题是凸的,并且:
这样的点有时候叫做严格可行(strictly feasible)。在这个条件成立的同时,对偶可行解(如果有限)是可以取到的。
对于两人零和博弈,可以只使用一个矩阵 来表示,用向量 分别表示两个人的策略,那么 payoff 就是 ,这里说明,强对偶性可以用来证明 minimax 定理的一种特殊情况:
其中 。
在优化问题构建的过程中蕴含了博弈论里的 indifference principle
row player 面临如下的优化问题:
等价于:
不难写出它的对偶:
column player 面临的优化问题是:
实际上这个问题就是(*)式,根据强对偶性,两个问题的最优值相等。
记 ,这是一个把目标函数和所有约束都考虑进来的集合。
原问题的最优解可以很容易用 来表示:
用 还能来表示对偶函数:
从而我们可以得到弱对偶性:

鞍点这个词,顾名思义,来自马鞍。如上图中标注出的点,它在一个方向上使函数值达到最小,而在另一个方向上使函数达到最大。在光滑的条件下,判断鞍点的一个充分条件是函数在一阶导数为零处(驻点)的Heisen矩阵为不定矩阵。
且先考虑这么一个拉格朗日函数:
如果原优化问题不可行,那么 可以取到 ,而如果 满足约束条件,就只能等于目标函数。所以:
而根据对偶问题的定义,又有:
所以弱对偶性等价于:
强对偶性等价于:
事实上,
总是成立的!这叫做 maxmin-inequality.
称 是 的鞍点(saddle point),如果
换句话说, 最小化 , 最大化 over :
所以说,如果 和 分别是原问题和对偶问题的最优点,那么 就是拉格朗日函数的鞍点!反之也是成立的。
对于任意的问题,如果强对偶性成立,记 和 分别是原问题和对偶问题的最优解,那么:
这意味着:
进而有:
这就是互补松弛性!(complementary slackness)
如果 ,就有 ;如果 ,那么 。每一个约束都有与它对应的对偶变量(乘子),如果乘子大于0,那么约束必然是紧的 (binding);如果约束不是紧的 (unbinding),那么乘子必然为0。
有解 的线性规划必然成立互补松弛定理,它可以看成是强对偶性下的互补松弛的一个特例。
并且,因为线性规划的对偶的对偶就是它本身,这两重对偶的互补松弛性可以揭示线性规划 primal and dual optimality。这是线性规划的 primal-dual method 的思想。
进一步假设这些函数都是可微的(并没有凸性的假设)。记 和 分别是原问题和对偶问题的最优解,且强对偶性成立,因为 最小化了 ,所以:
于是,加上互补松弛条件和问题本身的约束,我们有:
这就是KKT条件(Karush-Kuhn-Tucker conditions)。总结一下,对任何有着可微目标函数与约束的优化问题,只要强对偶性成立,那么其最优值 和对偶最优 就必然成立KKT条件。
在这里,KKT条件的证明,前提是强对偶性,针对的是全局最优点,利用了对偶函数的性质。
简而言之,强对偶性(能取到最优解) 全局最优点成立KKT条件。注意这里是全局最优而不是局部最优!
强对偶性成立下KKT条件是优化问题最优解的必要条件!
- 例如问题: 就在最优点()处不成立KKT条件。它的对偶问题是:
虽然强对偶性还是成立的($d^=p^=0$),但是对偶问题没有办法取到最优解。
如果这个优化问题还是凸的,那么KKT条件还能提供充分性。
利用KKT条件对最优解的充分性,可以把求凸优化的最优解转化为求满足KKT条件的点。
比如等式约束的二次规划问题可以利用KKT条件求解。对
它的KKT条件是:
写成矩阵形式就是:
关于KKT条件对局部最优解的论述,参见:KKT的进一步论述
在这一部分,将要使用对偶理论来讨论一系列约束的可行性。
约束的可行性,可以用优化的理论进行等价表述:
这个约束是否可行,可以链接到一个优化问题的最优值上。
且:
写出这个优化问题的对偶函数:
注意到 是齐次函数,即 。所以:对偶问题的最优值:
弱对偶性告诉我们,至少成立 ,所以,如果 ,那么必然 ;如果 ,那么必然 !这说明,这里的原问题和对偶问题,最多只有一个是可行(feasible)的!这叫做weak alternatives。
如果,那么意味着都不可行。一个可行能推出另一个不可行,但一个不可行却不能推出另一个可行,所以称作弱 替代(以区别下面的强替代)
回想一下求最大的LP问题的对偶问题没有可行解,那么原问题无上界。
接下来,进一步考虑严格不等式约束的两组条件:
容易证明,它们满足弱替代性。
有了弱替代性,自然会想到强替代性,能不能在某种条件下,原问题和对偶问题的可行域有且只有一个可行呢?
弱替代性不要求原约束条件的凸性。为了得到强替代性,凸性,自然是必须的!
考虑一组“凸”的约束条件:
和它的 alternative:
这里还需要一个条件,就是式(3)的还要成立 ,在这种条件下,强替代性是成立的!
如果,那么这个条件就总是成立的。
考虑关于(3)式的优化问题:
如果(3)式的可行域非空,那么上面的优化问题的最优值。它的对偶问题是:
Slater's 条件在这里是成立的,所以强对偶性是成立的!由此不难继续推导出强替代性的成立。
另外,还有一种情况也成立强替代性:

这里也需要对第一个约束,成立这个条件。
线性关系是最容易导出强替代性的,下面列举一些例子:
例1:Farkas 引理
有且仅有一个可行。可以使用如下的一组对偶
例2:Gordan 定理
有且仅有一个可行。可以使用如下的一组对偶:
例3:
有且仅有一个可行。可以使用如下的一组对偶:
接下来我们讨论广义不等式下的对偶,这也叫做锥形式的对偶。这种优化问题具有标准形式:
类似地,我们可以定义拉格朗日函数:
和对偶函数:
注意,这里的 在 的对偶锥里,根据对偶锥的性质,我们就有:
**这一点保证了弱对偶性的成立!**因此对偶问题具有如下形式:
强对偶性的Slater's condition可以推广到锥形式的对偶下。即,如果问题是凸的,即 凸、 关于 凸,且存在一点 严格可行,那么强对偶成立,对偶间隙为0。
锥规划依然成立互补松弛条件、KKT条件、替代定理,在此从略。