Duality

对偶是优化里非常重要的一个工具。

拉格朗日对偶函数

对偶问题是研究优化问题的有力武器。考虑一个具有标准形式的优化问题:

minimizef0(x)subject to fi(x)0,i=1,,mhi(x)=0,i=1,,p

记整个的可行域为 D,定义上述问题对应的 拉格朗日函数(Lagrangian)

L(x,λ,ν)=f0(x)+i=1mλifi(x)+i=1pνihi(x)

其中 λi,νi 称为拉格朗日乘子(Lagrange multiplier),或者对偶变量。 domL=D×Rm×Rp

接着,我们定义拉格朗日对偶函数(Lagrange dual function) g:Rm×RpR

g(λ,ν)=infxDL(x,λ,ν)=infxD(f0(x)+i=1mλifi(x)+i=1pνihi(x))

如果拉格朗日函数没有下界,就记 g=L(x,λ,ν) 是关于 λ,ν 的仿射函数,从而,对偶函数 g 是一个凹函数,即使原来的优化问题不是凸的

假设 x~D,如果 λ0 ,我们可以得到:

i=1mλifi(x~)+i=1pνihi(x~)0

进而:

g(λ,ν)=infxDL(x,λ,ν)L(x~,λ,ν)f0(x~)

因为 g(λ,ν)f0(x~)x~D 都成立,对两边取下确界,就有:

g(λ,ν)p

p 是优化问题的最优值。

这说明,原优化问题的最优值是对偶函数的一个上界! 这个性质是接下来提出对偶问题的基本出发点。

如果是一个 maximize 的问题,拉格朗日函数应为: L(x,λ,ν)=f0(x)i=1mλifi(x)+i=1pνihi(x) 对偶函数为: g(λ,ν)=supxDL(x,λ,ν)L(x~,λ,ν)f0(x~)

对偶函数可以用来求一个困难问题的界。例如下面这个非凸最优化问题:

minimizexTWxsubject to xi2=1,i=1,,n

它其实是一个组合问题,向量 x 的每个分量要么是 1 要么是 1。写出它的拉格朗日函数:

L(x,ν)=xTWx+i=1nνi(xi21)=xT(W+diag(ν))x1Tν

对偶函数:

g(ν)=infxxT(W+diag(ν))x1Tν={1TνW+diag(ν)0 otherwise 

为了得到原问题的一个下界,我们可以取一个特殊的对偶变量:

ν=λmin(W)1

这时

W+diag(ν)=Wλmin(W)I0

是对偶可行的。最终我们得到原问题的一个下界:

p1Tν=nλmin(W)

当然,这个下界也可以将原问题的约束条件放宽成 i=1nxi2=n 来得到。

在这里,原问题是一个难解的组合问题,但是对偶问题是一个容易解的SDP。

对偶函数与共轭函数

【重写】

回想一下,f 的共轭函数被定义为:

f(y)=supxdomf(yTxf(x))

共轭函数与对偶函数具有紧密的关系。考虑以下问题:

minimizef0(x)subject to AxbCx=d

它的对偶函数:

g(λ,ν)=infx(f0(x)+λT(Axb)+νT(Cxd))=bTλdTν+infx(f0(x)+(ATλ+CTν)Tx)=bTλdTνsupx((ATλ+CTv)Txf0(x))=bTλdTνf0(ATλCTν)

同时 g 的定义域:

domg={(λ,ν)|ATλCTνdomf0}

一般地,对于某些特殊形式的优化问题,可以通过共轭函数的形式来表示对偶函数。

拉格朗日对偶问题

既然对偶函数的每一个函数值都是原问题的下界,那么是否可以通过计算对偶函数的最大值来逼近原问题的最优值呢?这就导出了拉格朗日对偶问题

 maximize g(λ,ν) subject to λ0

其中 domg={(λ,ν)|g(λ,ν)>}

求解拉格朗日对偶问题的好处在于,无论原问题是不是凸问题,对偶问题都是凸优化类问题!

对偶问题的约束条件,往往来源于domg={(λ,ν)|g(λ,ν)>}这个定义域的要求!

对偶问题同样会有最优值,我们将(λ,ν)称为对偶变量最优值(dual optimal)或者最优拉格朗日乘子(optimal Lagrange multipliers)。

几类优化问题的对偶问题

以下列举一些常见优化问题的对偶问题的形式

线性规划

考虑不等式形式的线性规划:

minimizecTxsubject to Axb

它的对偶函数:

g(λ)=infxL(x,λ)=bTλ+infx(ATλ+c)Tx

从而:

g(λ)={bTλATλ+c=0 otherwise 

所以它的对偶问题是:

maximizebTλsubject to ATλ+c=0,λ0.

以上是不等式形式的对偶。接下来考虑标准形式的线性规划:

minimizecTxsubject to Ax=bx0

对偶函数:

g(λ,ν)={bTνATνλ+c=0 otherwise 

对偶问题:

 maximize bTν subject to ATνλ+c=0,λ0

也可以写成:

 maximize bTν subject to ATν+λ=c,λ0

这也是锥形式下线性规划标准形式的对偶。

也可以写成不等式形式:

 maximize bTν subject to ATνc

线性规划的不等式形式的对偶问题的形式是等式,而线性规划的等式形式的对偶问题的形式可以写成不等式。

等式约束的二次规划

考虑问题:

minimizexTxsubject to Ax=b

拉格朗日函数:L(x,ν)=xTx+νT(Axb)

xL(x,ν)=2x+ATν=0x=(1/2)ATν

从而有对偶函数:

g(ν)=L((1/2)ATν,ν)=(1/4)νTAATνbTν

对偶问题:

maximize(1/4)νTAATνbTν

这是一个无约束的凹函数最大化问题!(自然可以转化为无约束的凸优化问题)。从而我们知道,原问题是约束优化问题,对偶问题可能是无约束的问题!

QCQP

考虑:

minimize(1/2)xTP0x+q0Tx+r0subject to (1/2)xTPix+qiTx+ri0,i=1,,m

拉格朗日函数:

L(x,λ)=(1/2)xTP(λ)x+q(λ)Tx+r(λ)

其中:

P(λ)=P0+i=1mλiPi,q(λ)=q0+i=1mλiqi,r(λ)=r0+i=1mλiri

λ0 时,P(λ) 是正定的,从而:

g(λ)=infxL(x,λ)=(1/2)q(λ)TP(λ)1q(λ)+r(λ)

所以有对偶问题:

maximize(1/2)q(λ)TP(λ)1q(λ)+r(λ)subject to λ0

【添加一些问题的对偶】

弱对偶性与强对偶性

d 是对偶问题的最优值,通过上面的推证,我们有:

dp

这个性质称为弱对偶性,它甚至不要求原问题是凸的。

弱对偶性可以推广到取值为无穷的情况:

  • 如果 p=,原问题最优值是无界的,则必然有 d=,也就是对偶问题不可行。
  • 如果 d=+,对偶问题最优值无界,也必然成立 p=+,也就是说,原问题不可行。

也可能出现情况:d=,p=+,即原问题和对偶问题都不可行!

如线性规划的原问题: minx1+2x2 s.t. x1+x2=12x1+2x2=3 和对偶问题: maxy1+3y2 s.t. y1+2y2=1y1+2y2=2 都不可行!

pd 称作对偶间隙(optimal duality gap)。如果 p=d,我们就称强对偶性成立,这意味着,对偶问题的最优值恰好就是原问题的最优值。因此,如果对偶问题更易求解的话,我们往往能够方便地给原问题提供一个下界。

弱对偶性是一定严格成立的,强对偶性就未必了。

如果原问题是凸的,通常来说强对偶性是会成立的。建立在凸性上的成立强对偶性的条件有很多,我们把这些条件称作:constraint qualifications

Slater's condition 是强对偶性成立的一个充分条件。如果问题是凸的,并且: x~D,s.t.fi(x~)<0,Ax~=b

这样的点有时候叫做严格可行(strictly feasible)。在这个条件成立的同时,对偶可行解(如果有限)是可以取到的。

强对偶性成立的问题

minimax 定理

对于两人零和博弈,可以只使用一个矩阵 A 来表示,用向量 x,y 分别表示两个人的策略,那么 payoff 就是 ±yTAx,这里说明,强对偶性可以用来证明 minimax 定理的一种特殊情况: maxx(minyyTAx)=miny(maxxyTAx) 其中 x,y0,xT1=yT1=1

在优化问题构建的过程中蕴含了博弈论里的 indifference principle

row player 面临如下的优化问题: minmaxi=1,,n(ATy)is.t.y0,yT1=1 等价于: mints.t.y0,yT1=1ATyt1 不难写出它的对偶: (\ast)maxν s.t. λ0,1Tλ=1Aλν1. column player 面临的优化问题是: maxmini=1,,m(Ax)is.t.x0,xT1=1 实际上这个问题就是(*)式,根据强对偶性,两个问题的最优值相等。

几何解释

G={(f1(x),,fm(x),h1(x),,hp(x),f0(x))Rm×Rp×R|xD},这是一个把目标函数和所有约束都考虑进来的集合。

原问题的最优解可以很容易用 G 来表示: p=inf{t|(u,v,t)G,u0,v=0}G 还能来表示对偶函数: g(λ,ν)=inf{(λ,ν,1)T(u,v,t)|(u,v,t)G} 从而我们可以得到弱对偶性: p=inf{t|(u,v,t)G,u0,v=0}inf{(λ,ν,1)T(u,v,t)|(u,v,t)G,u0,v=0}inf{(λ,ν,1)T(u,v,t)|(u,v,t)G}=g(λ,ν)

鞍点

saddle point

鞍点这个词,顾名思义,来自马鞍。如上图中标注出的点,它在一个方向上使函数值达到最小,而在另一个方向上使函数达到最大。在光滑的条件下,判断鞍点的一个充分条件是函数在一阶导数为零处(驻点)的Heisen矩阵为不定矩阵

且先考虑这么一个拉格朗日函数:

supλ0L(x,λ)=supλ0(f0(x)+i=1mλifi(x))={f0(x)fi(x)0,i=1,,m+ otherwise 

如果原优化问题不可行,那么 supλ0L(x,λ) 可以取到 +,而如果 x 满足约束条件,就只能等于目标函数。所以:

p=infxsupλ0L(x,λ)

而根据对偶问题的定义,又有:

d=supλ0infxL(x,λ)

所以弱对偶性等价于:

supλ0infxL(x,λ)infxsupλ0L(x,λ)

强对偶性等价于:

supλ0infxL(x,λ)=infxsupλ0L(x,λ)

事实上, supzZinfwWf(w,z)infwWsupzZf(w,z) 总是成立的!这叫做 maxmin-inequality.

w~W,z~Zf 的鞍点(saddle point),如果

f(w~,z)f(w~,z~)f(w,z~),wW,zZ

换句话说, w~ 最小化 f(w,z~)z~ 最大化 f(w~,z)( over zZ) :

f(w~,z~)=infwWf(w,z~),f(w~,z~)=supzZf(w~,z)

所以说,如果 xλ 分别是原问题和对偶问题的最优点,那么 (x,λ) 就是拉格朗日函数的鞍点!反之也是成立的。

Optimality conditions

Complementary slackness

对于任意的问题,如果强对偶性成立,记 x(λ,ν) 分别是原问题和对偶问题的最优解,那么:

f0(x)=g(λ,ν)=infx(f0(x)+i=1mλifi(x)+i=1pνihi(x))f0(x)+i=1mλifi(x)+i=1pνihi(x)f0(x)

这意味着:

i=1mλifi(x)=0

进而有:

λifi(x)=0,i=1,,m

这就是互补松弛性!(complementary slackness)

如果 λi>0,就有 fi(x)=0;如果 fi(x)<0,那么 λi=0。每一个约束都有与它对应的对偶变量(乘子),如果乘子大于0,那么约束必然是紧的 (binding);如果约束不是紧的 (unbinding),那么乘子必然为0。

有解 的线性规划必然成立互补松弛定理,它可以看成是强对偶性下的互补松弛的一个特例。

并且,因为线性规划的对偶的对偶就是它本身,这两重对偶的互补松弛性可以揭示线性规划 primal and dual optimality。这是线性规划的 primal-dual method 的思想。

KKT optimality conditions

进一步假设这些函数都是可微的(并没有凸性的假设)。记 x(λ,ν) 分别是原问题和对偶问题的最优解,且强对偶性成立,因为 x 最小化了 L(x,λ,ν),所以: f0(x)+i=1mλifi(x)+i=1pνihi(x)=0 于是,加上互补松弛条件和问题本身的约束,我们有:

fi(x)0,i=1,,mhi(x)=0,i=1,,pλi0,i=1,,mλifi(x)=0,i=1,,mf0(x)+i=1mλifi(x)+i=1pνihi(x)=0,

这就是KKT条件(Karush-Kuhn-Tucker conditions)。总结一下,对任何有着可微目标函数与约束的优化问题,只要强对偶性成立,那么其最优值 x 和对偶最优 (λ,ν) 就必然成立KKT条件。

在这里,KKT条件的证明,前提是强对偶性,针对的是全局最优点,利用了对偶函数的性质。

简而言之,强对偶性(能取到最优解) 全局最优点成立KKT条件。注意这里是全局最优而不是局部最优

强对偶性成立下KKT条件是优化问题最优解的必要条件!

  • 例如问题:minxs.t. x20 就在最优点(x=0)处不成立KKT条件。它的对偶问题是: max;14λ st.λ>0虽然强对偶性还是成立的($d^=p^=0$),但是对偶问题没有办法取到最优解。

如果这个优化问题还是凸的,那么KKT条件还能提供充分性。

利用KKT条件对最优解的充分性,可以把求凸优化的最优解转化为求满足KKT条件的点。

比如等式约束的二次规划问题可以利用KKT条件求解。对 minimize(1/2)xTPx+qTx+rsubject to Ax=b 它的KKT条件是: Ax=b,Px+q+ATν=0 写成矩阵形式就是: [PATA0][xν]=[qb]

关于KKT条件对局部最优解的论述,参见:KKT的进一步论述

替代定理(Theorem of alternatives)

在这一部分,将要使用对偶理论来讨论一系列约束的可行性。

约束的可行性,可以用优化的理论进行等价表述:

fi(x)0,i=1,,m,hi(x)=0,i=1,,p

这个约束是否可行,可以链接到一个优化问题的最优值上。

(\ast)minimize0subject to fi(x)0,i=1,,mhi(x)=0,i=1,,p

且:

p={0() is feasible () is infeasible 

写出这个优化问题的对偶函数:

g(λ,ν)=infxD(i=1mλifi(x)+i=1pνihi(x))

注意到 g(λ,ν) 是齐次函数,即 g(tλ,tν)=tg(λ,ν),t>0。所以:对偶问题的最优值:

d={λ0,g(λ,ν)>0 is feasible 0λ0,g(λ,ν)>0 is infeasible. 

弱对偶性告诉我们,至少成立 dp,所以,如果 d=,那么必然 p=;如果 p=0,那么必然 d=0!这说明,这里的原问题和对偶问题,最多只有一个是可行(feasible)的!这叫做weak alternatives

如果p=,d=0,那么意味着都不可行。一个可行能推出另一个不可行,但一个不可行却不能推出另一个可行,所以称作 替代(以区别下面的强替代)

回想一下求最大的LP问题的对偶问题没有可行解,那么原问题无上界。

接下来,进一步考虑严格不等式约束的两组条件:

(1)fi(x)<0,i=1,,m,hi(x)=0,i=1,,p

(2)λ0,λ0,g(λ,ν)0

容易证明,它们满足弱替代性。

有了弱替代性,自然会想到强替代性,能不能在某种条件下,原问题和对偶问题的可行域有且只有一个可行呢?

弱替代性不要求原约束条件的凸性。为了得到强替代性,凸性,自然是必须的!

考虑一组“凸”的约束条件:

(3)fi(x)<0,i=1,,m,Ax=b,letD=imdomfi

和它的 alternative

(4)λ0,λ0,g(λ,ν)0

这里还需要一个条件,就是式(3)的还要成立 x~relintD,st.Ax~=b,在这种条件下,强替代性是成立的!

如果D=Rn,那么这个条件就总是成立的。

考虑关于(3)式的优化问题: minimizessubject to fi(x)s0,i=1,,mAx=b 如果(3)式的可行域非空,那么上面的优化问题的最优值p<0。它的对偶问题是: maximizeg(λ,ν)subject to λ0,1Tλ=1 Slater's 条件在这里是成立的,所以强对偶性是成立的!由此不难继续推导出强替代性的成立。

另外,还有一种情况也成立强替代性:

这里也需要对第一个约束,成立x~relintD,st.Ax~=b这个条件。

线性关系是最容易导出强替代性的,下面列举一些例子:

例1:Farkas 引理

  1. Ax=b,x0
  2. ATy0,bTy<0

有且仅有一个可行。可以使用如下的一组对偶

(P)minimizecTxsubject to Ax=b,x0(D)maximizebTysubject to ATyc

例2:Gordan 定理

  1. Ax=0,x0,x0
  2. ATy>0

有且仅有一个可行。可以使用如下的一组对偶: (P)minimize1Txsubject to Ax=0,x0(D)maximize0subject to ATy1 例3:

  1. Axb
  2. y0,y0,ATy=0,yTb0

有且仅有一个可行。可以使用如下的一组对偶: (P)minimize0subject to Axb(D)maximizebTysubject to ATy=0,y0

Generalized inequalities

接下来我们讨论广义不等式下的对偶,这也叫做锥形式的对偶。这种优化问题具有标准形式: minimizef0(x)subject to fi(x)Ki0,i=1,,mhi(x)=0,i=1,,p 类似地,我们可以定义拉格朗日函数: L(x,λ,ν)=f0(x)+λ1Tf1(x)++λmTfm(x)+ν1h1(x)++νphp(x) 和对偶函数: g(λ,ν)=infxDL(x,λ,ν)=infxD(f0(x)+i=1mλiTfi(x)+i=1pνihi(x)) 注意,这里的 λiK0K 的对偶锥里,根据对偶锥的性质,我们就有: λiTfi(x)0 **这一点保证了弱对偶性的成立!**因此对偶问题具有如下形式: maximizeg(λ,ν)subject to λiKi0,i=1,,m

强对偶性的Slater's condition可以推广到锥形式的对偶下。即,如果问题是凸的,即 f0 凸、fi 关于 Ki 凸,且存在一点 x~ 严格可行,那么强对偶成立,对偶间隙为0。

锥规划依然成立互补松弛条件、KKT条件、替代定理,在此从略。


minimax theorem

maxzZixz=minxi,i[I]{i[I]maxzZixizi[I]xi=x}

updatedupdated2023-01-262023-01-26