-
标准形式的线性规划问题(原问题 Primal Problem)
xmins.t.cTxAx=bx⪰0
其中 A∈Rm×n,b∈Rm,c∈Rn,x∈Rn。
-
对偶问题的构造
对于标准形式的线性规划问题,其对偶问题(Dual Problem)为:
λ,νmaxs.t.bTνATν+λ=cλ⪰0
其中 ν∈Rm 是对应等式约束 Ax=b 的拉格朗日乘子,λ∈Rn 是对应非负约束 x⪰0 的拉格朗日乘子。
通过消去 λ,对偶问题可等价地写为:
νmaxs.t.bTνATν⪯c
-
一般形式的线性规划对偶
对于更一般的线性规划问题:
xmins.t.cTxGx⪯hAx=b
其对偶问题为:
λ,νmaxs.t.−hTλ+bTνGTλ+ATν+c=0λ⪰0
或等价地:
λ,νmaxs.t.−hTλ+bTνGTλ+ATν=−cλ⪰0
-
弱对偶定理(Weak Duality Theorem)
设 x 是原问题的可行解,(λ,ν) 是对偶问题的可行解,则
cTx≥bTν
即原问题的最优值 p∗ 和对偶问题的最优值 d∗ 满足:
p∗≥d∗
证明:由于 x 和 (λ,ν) 分别是原问题和对偶问题的可行解,有:
- Ax=b,x⪰0
- ATν+λ=c,λ⪰0
因此:
cTx=(ATν+λ)Tx=νTAx+λTx=νTb+λTx≥νTb=bTν
其中不等式成立是因为 λ⪰0 且 x⪰0,所以 λTx≥0。
-
强对偶定理(Strong Duality Theorem)
对于线性规划问题,如果原问题和对偶问题都有可行解,则强对偶成立:
p∗=d∗
即原问题和对偶问题的最优值相等。
注意:
- 线性规划问题满足强对偶性(只要原问题和对偶问题都有可行解)
- 这与一般凸优化问题不同,一般凸优化问题需要满足 Slater 条件才能保证强对偶
-
互补松弛条件(Complementary Slackness)
设 x∗ 是原问题的最优解,(λ∗,ν∗) 是对偶问题的最优解,则互补松弛条件成立:
λi∗xi∗=0,i=1,…,n
即对于每个 i,要么 λi∗=0,要么 xi∗=0(或两者同时为 0)。
对于一般形式的线性规划,互补松弛条件为:
λi∗(Gx∗−h)i=0,i=1,…,m
即对于每个不等式约束,要么拉格朗日乘子为 0,要么约束在最优解处是紧的(等号成立)。
-
对偶问题的几何解释
- 对偶问题可以理解为在原问题的约束下,寻找目标函数的下界
- 对偶变量的值反映了原问题约束的"价格"或"影子价格"(shadow price)
- 对偶问题的最优解提供了原问题最优值的下界
-
对偶问题的对偶
线性规划的对偶问题的对偶是原问题本身,即对偶关系是对称的。
-
对偶单纯形法(Dual Simplex Method)
- 对偶单纯形法是在对偶可行性的基础上,通过迭代逐步达到原问题可行性的方法
- 当原问题不可行但对偶问题可行时,可以使用对偶单纯形法
- 对偶单纯形法在灵敏度分析中特别有用
-
对偶性的应用
- 灵敏度分析:对偶变量可以用于分析约束右端项变化对目标函数值的影响
- 下界估计:对偶问题的最优值提供了原问题最优值的下界
- 算法设计:对偶理论为设计高效的线性规划算法提供了理论基础
- 经济解释:对偶变量可以解释为资源的边际价值或影子价格
-
原问题与对偶问题的共可行性关系定理
对于标准形式的线性规划问题(LPP),原问题和对偶问题之间的共可行性关系可以确定如下:
| 原问题 \ 对偶问题 |
不可行(Infeasible) |
最优(Optimal) |
无界(Unbounded) |
| 不可行(Infeasible) |
√ |
× |
√ |
| 最优(Optimal) |
× |
√ |
× |
| 无界(Unbounded) |
√ |
× |
× |
定理说明:
- 当原问题不可行时,对偶问题可能不可行,也可能无界,但不可能有最优解
- 当原问题最优时,对偶问题也一定最优(强对偶性),且最优值相等
- 当原问题无界时,对偶问题一定不可行
- 对称地,当对偶问题无界时,原问题一定不可行
- 原问题和对偶问题不可能同时无界
- 原问题和对偶问题可能同时不可行
-
标准形式的优化问题(原问题 Primal Problem)
xmins.t.f0(x)fi(x)≤0,i=1,…,mhj(x)=0,j=1,…,p
其中 f0:Rn→R 是目标函数,fi:Rn→R 是不等式约束函数,hj:Rn→R 是等式约束函数。
-
拉格朗日函数 (Lagrangian Function)
对于标准形式的优化问题,其拉格朗日函数定义为:
L(x,λ,ν)=f0(x)+i=1∑mλifi(x)+j=1∑pνjhj(x)
其中:
- λ=[λ1,…,λm]T∈Rm 是不等式约束的拉格朗日乘子(对偶变量)
- ν=[ν1,…,νp]T∈Rp 是等式约束的拉格朗日乘子(对偶变量)
- 拉格朗日函数将约束优化问题转化为无约束优化问题
-
对偶函数 (Dual Function)
对偶函数定义为拉格朗日函数关于原变量 x 的下确界:
g(λ,ν)=x∈DinfL(x,λ,ν)=x∈Dinf[f0(x)+i=1∑mλifi(x)+j=1∑pνjhj(x)]
其中 D=⋂i=0mdom fi∩⋂j=1pdom hj 是问题的定义域。
对偶函数的性质:
- 对偶函数是凹函数(无论原问题是否为凸问题)
- 对偶函数提供了原问题最优值的下界:g(λ,ν)≤p∗,其中 p∗ 是原问题的最优值
- 对偶函数可能取值为 −∞(当拉格朗日函数无下界时)
-
对偶问题 (Dual Problem)
对偶问题定义为最大化对偶函数:
λ,νmaxs.t.g(λ,ν)λ⪰0
其中 λ⪰0 表示 λi≥0 对所有 i=1,…,m 成立。
对偶问题的性质:
- 对偶问题总是凸优化问题(因为对偶函数是凹函数,且约束 λ⪰0 是凸集)
- 对偶问题的最优值记为 d∗
- 即使原问题不是凸的,对偶问题也是凸的
-
弱对偶定理 (Weak Duality Theorem)
设 x 是原问题的可行解,(λ,ν) 是对偶问题的可行解(即 λ⪰0),则
f0(x)≥g(λ,ν)
即原问题的最优值 p∗ 和对偶问题的最优值 d∗ 满足:
p∗≥d∗
证明:由于 x 是原问题的可行解,有 fi(x)≤0 和 hj(x)=0。又因为 λ⪰0,所以:
g(λ,ν)=z∈DinfL(z,λ,ν)≤L(x,λ,ν)=f0(x)+i=1∑mλifi(x)+j=1∑pνjhj(x)≤f0(x)
其中最后一个不等式成立是因为 λi≥0 且 fi(x)≤0,所以 λifi(x)≤0,以及 hj(x)=0。
对偶间隙 (Dual Gap):p∗−d∗≥0 称为对偶间隙。当 p∗=d∗ 时,称为强对偶(strong duality)。
-
例子:线性规划的对偶
考虑线性规划问题:
xmins.t.cTxAx=bx⪰0
拉格朗日函数:
L(x,λ,ν)=cTx−λTx+νT(Ax−b)=(c−λ+ATν)Tx−νTb
对偶函数:
g(λ,ν)=xinfL(x,λ,ν)={−νTb−∞如果 c−λ+ATν=0否则
对偶问题:
λ,νmaxs.t.−νTbc−λ+ATν=0λ⪰0
通过消去 λ,等价地写为:
νmaxs.t.bTνATν⪯c
-
例子:二次规划的对偶
考虑二次规划问题:
xmins.t.21xTPx+qTx+rAx=bx⪰0
其中 P⪰0。
拉格朗日函数:
L(x,λ,ν)=21xTPx+qTx+r−λTx+νT(Ax−b)
对偶函数:对 x 求导并令其为零:
∇xL=Px+q−λ+ATν=0
如果 P≻0(正定),则 x=P−1(λ−ATν−q),代入拉格朗日函数可得对偶函数。
如果 P 只是半正定,需要额外的条件保证对偶函数有限。
-
例子:最小范数问题
考虑问题:
xmins.t.∥x∥Ax=b
拉格朗日函数:
L(x,ν)=∥x∥+νT(Ax−b)
对偶函数:
g(ν)=xinf[∥x∥+νT(Ax−b)]=xinf[∥x∥+νTAx]−νTb
利用共轭函数的性质,可以证明:
g(ν)={−νTb−∞如果 ∥ATν∥∗≤1否则
其中 ∥⋅∥∗ 是对偶范数。
-
对偶问题的几何解释
- 对偶函数 g(λ,ν) 可以理解为:对于给定的对偶变量 (λ,ν),在原问题的约束下,拉格朗日函数的最小值
- 对偶问题是在所有可能的对偶变量中,寻找使得这个最小值最大的对偶变量
- 对偶问题的最优值 d∗ 提供了原问题最优值 p∗ 的下界
- 对偶变量 λi 可以解释为第 i 个不等式约束的"价格"或"影子价格"
-
对偶问题的优势
- 对偶问题总是凸优化问题(即使原问题不是凸的)
- 对偶问题的变量维度通常小于原问题的变量维度
- 对偶问题可以提供原问题最优值的下界
- 对偶问题在算法设计中非常有用(如对偶上升法、增广拉格朗日法等)
-
强对偶 (Strong Duality)
对于优化问题,如果原问题的最优值 p∗ 和对偶问题的最优值 d∗ 相等,即
p∗=d∗
则称强对偶成立。
强对偶的重要性:
- 强对偶成立时,对偶间隙为零,对偶问题的最优值等于原问题的最优值
- 强对偶为求解原问题提供了另一种途径:可以通过求解对偶问题来获得原问题的最优值
- 强对偶成立时,原问题和对偶问题的最优解之间存在特定的关系(KKT条件)
-
Slater 条件 (Slater's Condition)
对于标准形式的凸优化问题:
xmins.t.f0(x)fi(x)≤0,i=1,…,mAx=b
其中 f0,f1,…,fm 是凸函数,A∈Rp×n,b∈Rp。
Slater 条件:如果存在点 x∈relint D(D 的相对内部)使得
fi(x)<0,i=1,…,m,Ax=b
则称问题满足 Slater 条件(或 Slater 约束品性)。
说明:
- relint D 表示定义域 D 的相对内部
- 对于不等式约束,要求严格小于 0(严格可行)
- 对于等式约束,要求严格等于(必须满足)
- 这样的点 x 称为严格可行点(strictly feasible point)或Slater 点
-
强对偶定理 (Strong Duality Theorem)
对于凸优化问题,如果满足 Slater 条件,则强对偶成立:
p∗=d∗
定理表述:
- 设原问题是凸优化问题(f0,fi 是凸函数,hj 是仿射函数)
- 如果存在严格可行点(Slater 条件满足)
- 且原问题的最优值 p∗ 有限(p∗>−∞)
- 则强对偶成立:p∗=d∗
注意:
- Slater 条件是强对偶成立的充分条件,但不是必要条件
- 即使不满足 Slater 条件,强对偶也可能成立
- 对于线性规划,只要原问题和对偶问题都有可行解,强对偶就成立(不需要 Slater 条件)
-
相对内部 Slater 条件 (Relative Interior Slater Condition)
对于某些问题,标准的 Slater 条件可能过于严格。相对内部 Slater 条件是更弱的条件:
如果存在点 x∈relint D 使得
fi(x)<0,i∈I,Ax=b
其中 I 是某些不等式约束的索引集合,则称问题满足相对内部 Slater 条件。
应用场景:
- 当某些不等式约束是仿射函数时,可以放宽要求
- 对于仿射不等式约束 fi(x)=aiTx−bi≤0,只需要 fi(x)≤0(不需要严格小于)
-
Slater 条件的几何解释
- Slater 条件要求可行域有"内部点"(在相对内部意义下)
- 如果可行域是"薄的"(如只有边界点),可能不满足 Slater 条件
- Slater 条件保证了可行域有足够的"厚度",使得对偶问题能够达到原问题的最优值
-
例子:满足 Slater 条件的问题
考虑二次规划问题:
xmins.t.21xTPx+qTxAx=bx⪰0
其中 P⪰0。
如果存在 x>0(所有分量严格大于 0)且 Ax=b,则满足 Slater 条件。
-
例子:不满足 Slater 条件的问题
考虑问题:
xmins.t.x1x12+x22≤1x1+x2=1
可行域是单位圆与直线 x1+x2=1 的交集,只有一个点 (1,0)(或 (0,1)),没有严格可行点,因此不满足 Slater 条件。
但在这个例子中,强对偶仍然可能成立(需要具体分析)。
-
Slater 条件与约束品性的关系
- Slater 条件是一种约束品性(constraint qualification)
- 约束品性用于保证最优解满足 KKT 条件
- Slater 条件不仅保证 KKT 条件成立,还保证强对偶成立
- 对于凸优化问题,Slater 条件比一般的约束品性(如 LICQ)更强
-
强对偶不成立的情况
即使原问题是凸优化问题,如果:
- 不满足 Slater 条件
- 且可行域是"退化的"(如只有边界点)
则可能出现对偶间隙(duality gap):p∗>d∗。
例子:考虑问题
x,ymins.t.e−xx2+y2≤y
该问题的可行域只有一个点 (0,0),不满足 Slater 条件,可能存在对偶间隙。
-
线性规划的特殊性
对于线性规划问题,强对偶的条件更宽松:
- 只要原问题和对偶问题都有可行解,强对偶就成立
- 不需要 Slater 条件(因为线性约束总是可以找到严格可行点,除非问题不可行)
- 这是线性规划的一个重要性质
-
强对偶的应用
- 对偶方法:当强对偶成立时,可以通过求解对偶问题来求解原问题
- 最优性验证:如果找到原问题可行解 x 和对偶问题可行解 (λ,ν) 使得 f0(x)=g(λ,ν),则 x 是原问题的最优解
- 下界估计:即使强对偶不成立,对偶问题的最优值 d∗ 仍然提供原问题最优值的下界
-
KKT 条件与对偶性的关系
对于标准形式的优化问题:
xmins.t.f0(x)fi(x)≤0,i=1,…,mhj(x)=0,j=1,…,p
其拉格朗日函数为:
L(x,λ,ν)=f0(x)+i=1∑mλifi(x)+j=1∑pνjhj(x)
KKT 条件包括:
- 稳定性条件(Stationarity):∇xL(x∗,λ∗,ν∗)=0
- 原问题可行性(Primal Feasibility):fi(x∗)≤0,hj(x∗)=0
- 对偶可行性(Dual Feasibility):λi∗≥0
- 互补松弛(Complementary Slackness):λi∗fi(x∗)=0
KKT 条件将原问题的最优性与对偶问题的最优性联系起来。
-
KKT 条件与强对偶的关系
定理:设 x∗ 是原问题的可行解,(λ∗,ν∗) 是对偶问题的可行解。如果满足:
- 互补松弛条件:λi∗fi(x∗)=0 对所有 i 成立
- 稳定性条件:∇xL(x∗,λ∗,ν∗)=0
则 x∗ 和 (λ∗,ν∗) 分别是原问题和对偶问题的最优解,且强对偶成立:p∗=d∗=f0(x∗)=g(λ∗,ν∗)。
证明思路:
- 由稳定性条件,x∗ 是拉格朗日函数 L(x,λ∗,ν∗) 的极小值点
- 因此 g(λ∗,ν∗)=L(x∗,λ∗,ν∗)
- 由互补松弛条件和可行性条件,L(x∗,λ∗,ν∗)=f0(x∗)
- 因此 f0(x∗)=g(λ∗,ν∗),即强对偶成立
-
凸优化问题中 KKT 条件的充要性
对于凸优化问题(f0,fi 是凸函数,hj 是仿射函数),如果满足 Slater 条件,则:
KKT 条件是充要条件:
- 充分性:如果 x∗ 和 (λ∗,ν∗) 满足 KKT 条件,则 x∗ 是原问题的最优解,(λ∗,ν∗) 是对偶问题的最优解,且强对偶成立
- 必要性:如果 x∗ 是原问题的最优解,且满足 Slater 条件,则存在 (λ∗,ν∗) 使得 KKT 条件成立
证明充分性:
- 设 x∗ 和 (λ∗,ν∗) 满足 KKT 条件
- 由于 x∗ 是可行解,f0(x∗)≥p∗
- 由于稳定性条件,x∗ 是 L(x,λ∗,ν∗) 的极小值点
- 因此 g(λ∗,ν∗)=L(x∗,λ∗,ν∗)=f0(x∗)(由互补松弛条件)
- 所以 f0(x∗)=g(λ∗,ν∗)≤d∗≤p∗≤f0(x∗)
- 因此 p∗=d∗=f0(x∗),即 x∗ 是最优解且强对偶成立
-
通过 KKT 条件验证最优性
当强对偶成立时,可以通过以下方法验证最优性:
方法:如果找到 x∗ 和 (λ∗,ν∗) 使得:
- x∗ 是原问题的可行解
- (λ∗,ν∗) 是对偶问题的可行解
- f0(x∗)=g(λ∗,ν∗)(或等价地,满足互补松弛条件和稳定性条件)
则 x∗ 是原问题的最优解,(λ∗,ν∗) 是对偶问题的最优解。
应用:这是验证最优性的重要方法,特别是在对偶方法中。
-
KKT 条件与对偶问题的关系
对偶问题可以写为:
λ,νmaxs.t.g(λ,ν)λ⪰0
其中 g(λ,ν)=infxL(x,λ,ν)。
KKT 条件的对偶解释:
- 稳定性条件 ∇xL(x∗,λ∗,ν∗)=0 意味着 x∗ 是 L(x,λ∗,ν∗) 的极小值点
- 因此 g(λ∗,ν∗)=L(x∗,λ∗,ν∗)
- 互补松弛条件 λi∗fi(x∗)=0 意味着 L(x∗,λ∗,ν∗)=f0(x∗)
- 因此 f0(x∗)=g(λ∗,ν∗),即原问题和对偶问题的最优值相等
-
例子:线性规划的 KKT 条件
考虑线性规划问题:
xmins.t.cTxAx=bx⪰0
拉格朗日函数:L(x,λ,ν)=cTx−λTx+νT(Ax−b)
KKT 条件:
- 稳定性:∇xL=c−λ+ATν=0
- 原问题可行性:Ax=b,x⪰0
- 对偶可行性:λ⪰0
- 互补松弛:λixi=0 对所有 i
这些条件等价于线性规划的最优性条件。
-
例子:二次规划的 KKT 条件
考虑二次规划问题:
xmins.t.21xTPx+qTxAx=bx⪰0
其中 P⪰0。
拉格朗日函数:L(x,λ,ν)=21xTPx+qTx−λTx+νT(Ax−b)
KKT 条件:
- 稳定性:∇xL=Px+q−λ+ATν=0
- 原问题可行性:Ax=b,x⪰0
- 对偶可行性:λ⪰0
- 互补松弛:λixi=0 对所有 i
如果 P≻0 且满足 Slater 条件,则 KKT 条件是充要条件。
-
KKT 条件与对偶间隙
如果 x∗ 和 (λ∗,ν∗) 满足 KKT 条件,则:
p∗=d∗=f0(x∗)=g(λ∗,ν∗)
即对偶间隙为零。
反之,如果存在对偶间隙(p∗>d∗),则不存在同时满足 KKT 条件的 x∗ 和 (λ∗,ν∗)。
-
KKT 条件在算法中的应用
- 对偶上升法:通过求解对偶问题,然后利用 KKT 条件恢复原问题的最优解
- 增广拉格朗日法:通过修改拉格朗日函数,使得 KKT 条件更容易满足
- 内点法:通过修改互补松弛条件(如 λifi(x)=μ,其中 μ>0),逐步逼近 KKT 条件
- 原始-对偶方法:同时求解原问题和对偶问题,利用 KKT 条件作为最优性判据
-
KKT 条件的几何解释
- 稳定性条件:目标函数梯度与约束函数梯度的线性组合为零,意味着在最优解处,目标函数的梯度位于约束函数梯度张成的空间中
- 互补松弛条件:如果约束不起作用(fi(x∗)<0),则对应的拉格朗日乘子为零(λi∗=0);如果约束起作用(fi(x∗)=0),则拉格朗日乘子可能非零
- 对偶可行性条件:拉格朗日乘子非负,反映了不等式约束的方向性
-
KKT 条件与 Fritz John 条件的关系
- Fritz John 条件是更一般的条件,允许目标函数梯度前的系数 λ0≥0
- 当 λ0>0 时,Fritz John 条件等价于 KKT 条件(可归一化使 λ0=1)
- 当 λ0=0 时,称为异常情况,此时目标函数梯度不参与条件,通常意味着约束品性不满足
-
KKT 条件总结
对于凸优化问题,在 Slater 条件下:
- KKT 条件是充要条件
- 满足 KKT 条件的解是全局最优解
- KKT 条件保证了强对偶成立
- KKT 条件提供了原问题和对偶问题之间的桥梁
-
灵敏度分析 (Sensitivity Analysis)
灵敏度分析研究优化问题参数变化对最优解和最优值的影响。对于优化问题:
xmins.t.f0(x)fi(x)≤ui,i=1,…,mhj(x)=vj,j=1,…,p
其中 u=[u1,…,um]T 和 v=[v1,…,vp]T 是参数。
最优值函数定义为:
p∗(u,v)=inf{f0(x)∣fi(x)≤ui,hj(x)=vj}
-
对偶变量与灵敏度
对于凸优化问题,如果满足 Slater 条件且强对偶成立,则对偶变量 λ∗ 和 ν∗ 提供了最优值函数关于参数的灵敏度信息:
定理:设 p∗(u,v) 在 (0,0) 处可微,且强对偶成立,则
λi∗=−∂ui∂p∗(0,0),νj∗=−∂vj∂p∗(0,0)
解释:
- λi∗ 表示第 i 个不等式约束右端项 ui 增加一个单位时,最优值的减少量(负号表示增加约束会使最优值增大或不变)
- νj∗ 表示第 j 个等式约束右端项 vj 变化对最优值的影响
- 对偶变量也称为影子价格(shadow price)或边际值(marginal value)
-
局部灵敏度分析
在最优解 x∗ 和对偶最优解 (λ∗,ν∗) 附近,如果约束品性满足,则:
p∗(u,v)≈p∗(0,0)−i=1∑mλi∗ui−j=1∑pνj∗vj
这提供了参数小扰动时最优值的近似变化。
-
择一理论 (Alternative Theorems)
择一理论(也称为 Farkas 引理或择一定理)研究两个系统是否至少有一个有解的问题。
Farkas 引理 (Farkas' Lemma):
设 A∈Rm×n,b∈Rm,则以下两个系统有且仅有一个有解:
系统 1:Ax=b,x⪰0
系统 2:ATy⪰0,bTy<0
几何解释:
- 系统 1 有解意味着 b 属于 A 的列向量生成的锥
- 系统 2 有解意味着存在超平面将 b 与该锥分离
-
择一理论的推广:Gordan 定理
Gordan 定理:
设 A∈Rm×n,则以下两个系统有且仅有一个有解:
系统 1:Ax=0,x≻0(存在严格正解)
系统 2:ATy⪰0,ATy=0
即要么存在严格正的解,要么存在非零的非负解。
-
择一理论与对偶性的关系
择一理论可以用于证明对偶性结果。例如,可以用 Farkas 引理证明线性规划的强对偶性。
应用:择一理论可以用于:
- 判断优化问题的可行性
- 证明对偶性定理
- 分析约束系统的相容性
-
例子:线性规划的灵敏度分析
考虑线性规划问题:
xmins.t.cTxAx=b+δbx⪰0
如果原问题和对偶问题都有最优解,则对小的 δb,最优值的变化为:
p∗(b+δb)≈p∗(b)+ν∗Tδb
其中 ν∗ 是对偶问题的最优解。
-
择一理论的应用:可行性判断
择一理论可以用于判断优化问题的可行性:
- 如果原问题不可行,则对偶问题无界或不可行
- 如果对偶问题不可行,则原问题无界或不可行
- 这提供了判断问题可行性的另一种方法
-
强择一理论 (Strong Alternative)
对于更一般的系统,有强择一理论:
设 fi:Rn→R 是凸函数,hj:Rn→R 是仿射函数,则以下两个系统有且仅有一个有解(在 Slater 条件下):
系统 1:fi(x)<0,i=1,…,m;hj(x)=0,j=1,…,p
系统 2:存在 λ⪰0,ν(不全为零)使得
i=1∑mλifi(x)+j=1∑pνjhj(x)≥0,∀x
-
灵敏度分析的局限性
- 灵敏度分析基于局部线性近似,只适用于参数的小扰动
- 当参数变化较大时,最优解的结构可能发生变化(如起作用约束集合改变)
- 需要重新求解优化问题以获得准确结果
-
广义不等式约束的优化问题
考虑带有广义不等式约束的优化问题:
xmins.t.f0(x)fi(x)⪯Ki0,i=1,…,mhj(x)=0,j=1,…,p
其中 ⪯Ki 是由正常锥(proper cone)Ki 诱导的广义不等式。
-
拉格朗日函数(广义不等式情况)
对于广义不等式约束问题,拉格朗日函数定义为:
L(x,λ1,…,λm,ν)=f0(x)+i=1∑mλiTfi(x)+j=1∑pνjhj(x)
其中:
- λi∈Ki∗ 是对应第 i 个广义不等式约束的对偶变量
- Ki∗ 是 Ki 的对偶锥(dual cone)
- νj 是等式约束的拉格朗日乘子
-
对偶锥 (Dual Cone)
对于锥 K⊆Rn,其对偶锥定义为:
K∗={y∈Rn∣yTx≥0,∀x∈K}
性质:
- 如果 K 是正常锥,则 K∗ 也是正常锥
- (K∗)∗=K(对偶锥的对偶是原锥)
- 如果 K 是闭凸锥,则 K∗∗=K
-
对偶函数(广义不等式情况)
对偶函数定义为:
g(λ1,…,λm,ν)=x∈DinfL(x,λ1,…,λm,ν)
其中 λi∈Ki∗。
-
对偶问题(广义不等式情况)
对偶问题为:
λ1,…,λm,νmaxs.t.g(λ1,…,λm,ν)λi⪰Ki∗0,i=1,…,m
其中 λi⪰Ki∗0 表示 λi∈Ki∗。
-
弱对偶定理(广义不等式情况)
设 x 是原问题的可行解,(λ1,…,λm,ν) 是对偶问题的可行解,则
f0(x)≥g(λ1,…,λm,ν)
即 p∗≥d∗。
-
强对偶定理(广义不等式情况)
对于凸优化问题(f0,fi 是凸函数,hj 是仿射函数),如果满足 Slater 条件,则强对偶成立:p∗=d∗。
Slater 条件(广义不等式情况):存在 x∈relint D 使得
fi(x)≺Ki0,i=1,…,m;hj(x)=0,j=1,…,p
-
KKT 条件(广义不等式情况)
对于凸优化问题,在 Slater 条件下,KKT 条件是充要条件:
- 稳定性条件:∇xL(x∗,λ1∗,…,λm∗,ν∗)=0
- 原问题可行性:fi(x∗)⪯Ki0,hj(x∗)=0
- 对偶可行性:λi∗⪰Ki∗0
- 互补松弛:λi∗Tfi(x∗)=0
-
例子:半正定规划 (SDP) 的对偶
考虑半正定规划问题:
xmins.t.cTxF(x)=F0+i=1∑nxiFi⪯0Ax=b
其中 Fi∈Sk(k×k 对称矩阵),⪯ 表示半正定矩阵的 Löwner 偏序。
对偶问题:
Z,νmaxs.t.−tr(F0Z)+bTνtr(FiZ)+(ATν)i+ci=0,i=1,…,nZ⪰0
其中 Z∈Sk 是对偶变量,对应半正定约束。
-
例子:二阶锥规划 (SOCP) 的对偶
考虑二阶锥规划问题:
xmins.t.cTx∥Aix+bi∥2≤ciTx+di,i=1,…,mFx=g
其中约束 ∥Aix+bi∥2≤ciTx+di 是二阶锥约束(Lorentz 锥约束)。
对偶问题也涉及二阶锥约束,对偶变量属于对偶的二阶锥。
-
广义不等式的对偶锥
常见锥的对偶锥:
- 非负象限:(R+n)∗=R+n(自对偶)
- 半正定锥:(S+n)∗=S+n(自对偶)
- 二阶锥:Lorentz 锥也是自对偶的
- 一般锥:需要根据定义计算
-
广义不等式约束问题的优势
- 可以统一处理多种类型的约束(线性、二次、半正定等)
- 对偶理论在广义不等式情况下仍然成立
- 为设计统一的算法提供了理论基础
-
对偶问题的构造方法
对于标准形式的优化问题,对偶问题的构造步骤:
- 写出拉格朗日函数
- 求对偶函数(关于原变量的下确界)
- 最大化对偶函数,约束为对偶可行性
-
等价问题的对偶
如果两个优化问题是等价的(有相同的最优值),它们的对偶问题也等价。
例子:以下两个问题等价:
xminf0(x) s.t. fi(x)≤0
和
x,tmint s.t. f0(x)≤t,fi(x)≤0
它们的对偶问题也等价。
-
问题变形:引入松弛变量
可以通过引入松弛变量将不等式约束转化为等式约束:
fi(x)≤0⇔fi(x)+si=0,si≥0
这种变形不改变问题的对偶(对偶变量对应关系可能改变)。
-
问题变形:消除等式约束
如果等式约束是 Ax=b,可以通过参数化可行域来消除:
{x∣Ax=b}={Fz+x0∣z∈Rk}
其中 F 的列向量张成 A 的零空间,x0 是 Ax=b 的一个特解。
消除等式约束后,对偶问题中不再有对应的对偶变量。
-
问题变形:引入上境图形式
将问题转化为上境图形式(epigraph form):
x,tmins.t.tf0(x)≤tfi(x)≤0,i=1,…,mhj(x)=0,j=1,…,p
这种形式有时便于分析对偶。
-
对偶问题的对偶
对于凸优化问题,对偶问题的对偶是原问题(在适当条件下)。
定理:如果原问题是凸优化问题且满足 Slater 条件,则对偶问题的对偶是原问题。
-
问题变形:最小化最大值
考虑问题:
xmini=1,…,mmaxfi(x)
可以等价地写为:
x,tmins.t.tfi(x)≤t,i=1,…,m
然后可以构造对偶问题。
-
问题变形:最小化上确界
考虑问题:
xminy∈Ysupf(x,y)
可以等价地写为:
x,tmins.t.tf(x,y)≤t,∀y∈Y
如果 Y 是有限集,这是标准的优化问题;如果是无限集,需要其他方法。
-
对偶问题的简化
有时可以通过消去变量来简化对偶问题:
- 如果对偶函数关于某些变量是线性的,可以通过约束条件消去这些变量
- 如果某些约束是等式约束,可以代入消去
-
例子:最小范数问题的变形
原问题:
xmin∥x∥ s.t. Ax=b
上境图形式:
x,tmins.t.t∥x∥≤tAx=b
两种形式的对偶问题等价。
-
问题变形:分式规划
考虑分式规划问题:
xming0(x)f0(x) s.t. fi(x)≤0
其中 g0(x)>0。
可以通过变量替换 y=x/g0(x),t=1/g0(x) 转化为等价的凸问题(如果 f0,g0 满足某些条件)。
-
对偶问题的计算
计算对偶问题的步骤:
- 写出拉格朗日函数
- 求对偶函数(可能需要求解一个优化子问题)
- 确定对偶函数的定义域
- 写出对偶问题(最大化对偶函数,约束为对偶可行性)
注意:对偶函数的计算可能很困难,特别是当需要求解非平凡的优化子问题时。
-
对偶问题的优势
- 对偶问题总是凸优化问题(即使原问题不是凸的)
- 对偶问题的变量维度通常小于原问题
- 对偶问题可以提供原问题最优值的下界
- 对偶问题在算法设计中非常有用
-
问题变形总结
常见的问题变形包括:
- 引入松弛变量
- 消除等式约束
- 上境图形式
- 最小化最大值/上确界
- 变量替换
这些变形可以简化问题或使其更适合某些算法,但需要确保变形后的对偶与原问题的对偶一致或等价。