-
无约束问题的最优性条件
对于可微凸函数 f,我们有:
f(x∗)=xinff(x)⇔0=∇f(x∗)
推广到不可微凸函数 f:
f(x∗)=xinff(x)⇔0∈∂f(x∗)
-
证明思路
x∗ 是最优的当且仅当对所有 x 有 f(x)≥f(x∗),或等价地:
f(x)≥f(x∗)+0T(x−x∗)对所有 x
因此,x∗ 是最优的当且仅当 0∈∂f(x∗)。
-
分段线性优化的最优性条件
对于分段线性优化 f(x)=maxi=1,…,m(aiTx+bi),次微分为:
∂f(x)=Co{ai∣aiTx+bi=f(x)}
因此,x∗ 最小化 f 当且仅当存在 λ 使得:
λ≥0,1Tλ=1,i=1∑mλiai=0
其中如果 aiTx∗+bi<f(x∗),则 λi=0。
-
一般约束问题
对于问题:
minf(x)s.t.ci(x)≤0,i=1,…,mhj(x)=0,j=1,…,p
可以使用罚函数法或增广拉格朗日法将其转化为无约束或简单约束问题,然后应用次梯度法。
-
罚函数方法
构造罚函数:
ϕ(x)=f(x)+μi=1∑mmax(0,ci(x))2+μj=1∑phj(x)2
然后对 ϕ(x) 应用次梯度法,逐步增大罚参数 μ。
-
问题形式
ADMM 适用于如下形式的问题(f、g 为凸函数):
minf(x)+g(z)s.t.Ax+Bz=c
两个变量集合,目标函数可分离。
-
增广拉格朗日函数
Lρ(x,z,y)=f(x)+g(z)+yT(Ax+Bz−c)+2ρ∥Ax+Bz−c∥22
其中 ρ>0 是惩罚参数,y 是对偶变量(拉格朗日乘子)。
-
ADMM 算法
xk+1:=argminxLρ(x,zk,yk)// x-最小化zk+1:=argminzLρ(xk+1,z,yk)// z-最小化yk+1:=yk+ρ(Axk+1+Bzk+1−c)// 对偶更新
关键特点:
- 如果对 x 和 z 联合最小化,则退化为乘子法
- 相反,我们执行一次 Gauss-Seidel 方法
- 由于固定 z 最小化 x,反之亦然,我们得到了分离
-
最优性条件
对于可微情况,最优性条件为:
- 原可行性:Ax+Bz−c=0
- 对偶可行性:∇f(x)+ATy=0,∇g(z)+BTy=0
由于 zk+1 最小化 Lρ(xk+1,z,yk),我们有:
0=∇g(zk+1)+BTyk+ρBT(Axk+1+Bzk+1−c)=∇g(zk+1)+BTyk+1
因此,使用 ADMM 对偶变量更新,(xk+1,zk+1,yk+1) 满足第二个对偶可行性条件。原可行性和第一个对偶可行性在 k→∞ 时达到。
-
与乘子法的关系
乘子法(Method of Multipliers):
- 使用增广拉格朗日函数来增强对偶上升法的鲁棒性
- 迭代公式:
xk+1:=argminxLρ(x,yk)yk+1:=yk+ρ(Axk+1−b)
- 优点:在更宽松的条件下收敛(f 可以不可微、取值为 +∞ 等)
- 缺点:二次惩罚项破坏了 x-更新的分离性,无法进行分解
ADMM:
- 结合了乘子法的鲁棒性和分解能力
- 可以看作是"鲁棒的对偶分解"或"可分解的乘子法"
- 由 Gabay、Mercier、Glowinski、Marrocco 在 1976 年提出
-
对偶分解
如果 f 是可分离的:
f(x)=f1(x1)+⋯+fN(xN),x=(x1,…,xN)
则 L 在 x 中可分离:L(x,y)=L1(x1,y)+⋯+LN(xN,y)−yTb,其中 Li(xi,y)=fi(xi)+yTAixi。
对偶上升法中的 x-最小化可以分解为 N 个独立的最小化:
xik+1:=argximinLi(xi,yk)
这些可以并行执行。
-
应用
ADMM 广泛应用于:
- 分布式优化
- 统计学习
- 图像处理
- 稀疏优化
- 机器学习中的大规模优化问题