原始的增广拉格朗日函数是:
L ( X , Λ , μ ) = f ( X ) + ⟨ Λ , H ( X ) ⟩ + μ 2 ∥ H ( X ) ∥ F 2 L(X, \Lambda, \mu) = f(X) + \langle \Lambda, H(X) \rangle + \frac{\mu}{2} \|H(X)\|_F^2 L(X,Λ,μ)=f(X)+⟨Λ,H(X)⟩+2μ∥H(X)∥F2
其中:
- ⟨ Λ , H ( X ) ⟩ \langle \Lambda, H(X) \rangle ⟨Λ,H(X)⟩ 表示拉格朗日乘子 Λ \Lambda Λ 与约束函数 H ( X ) H(X) H(X) 的内积;
- ∥ H ( X ) ∥ F 2 \|H(X)\|_F^2 ∥H(X)∥F2 是约束函数 H ( X ) H(X) H(X) 的 Frobenius 范数的平方,表示对约束的惩罚项。
现在,我们的目标是将其转化为简化后的形式:
min X f ( X ) + μ 2 ∥ H ( X ) + 1 μ Λ ∥ F 2 \min_X f(X) + \frac{\mu}{2}\left\|H(X) + \frac{1}{\mu}\Lambda\right\|_F^2 Xminf(X)+2μ H(X)+μ1Λ F2
推导过程
关键在于增广拉格朗日函数中的两项 ⟨ Λ , H ( X ) ⟩ \langle \Lambda, H(X) \rangle ⟨Λ,H(X)⟩ 和 μ 2 ∥ H ( X ) ∥ F 2 \frac{\mu}{2} \|H(X)\|_F^2 2μ∥H(X)∥F2 :
-
展开范数平方:将惩罚项 μ 2 ∥ H ( X ) ∥ F 2 \frac{\mu}{2} \|H(X)\|_F^2 2μ∥H(X)∥F2 展开:
μ 2 ∥ H ( X ) ∥ F 2 = μ 2 ∑ i , j H ( X ) i j 2 \frac{\mu}{2} \|H(X)\|_F^2 = \frac{\mu}{2} \sum_{i,j} H(X)_{ij}^2 2μ∥H(X)∥F2=2μi,j∑H(X)ij2 -
合并内积项和范数项:注意到 ⟨ Λ , H ( X ) ⟩ \langle \Lambda, H(X) \rangle ⟨Λ,H(X)⟩ 可以看作是一个线性项。为了简化,将其引入到范数的平方中,观察以下等式:
∥ H ( X ) + 1 μ Λ ∥ F 2 = ∥ H ( X ) ∥ F 2 + 2 ⟨ 1 μ Λ , H ( X ) ⟩ + ∥ 1 μ Λ ∥ F 2 \|H(X) + \frac{1}{\mu}\Lambda\|_F^2 = \|H(X)\|_F^2 + 2\langle \frac{1}{\mu}\Lambda, H(X) \rangle + \|\frac{1}{\mu}\Lambda\|_F^2 ∥H(X)+μ1Λ∥F2=∥H(X)∥F2+2⟨μ1Λ,H(X)⟩+∥μ1Λ∥F2从这里可以看出, ⟨ Λ , H ( X ) ⟩ \langle \Lambda, H(X) \rangle ⟨Λ,H(X)⟩ 是范数平方的一个部分。
-
代入原函数:将这个展开结果代入到原始的增广拉格朗日函数中:
L ( X , Λ , μ ) = f ( X ) + ⟨ Λ , H ( X ) ⟩ + μ 2 ∥ H ( X ) ∥ F 2 L(X, \Lambda, \mu) = f(X) + \langle \Lambda, H(X) \rangle + \frac{\mu}{2} \|H(X)\|_F^2 L(X,Λ,μ)=f(X)+⟨Λ,H(X)⟩+2μ∥H(X)∥F2
使用上述展开,我们得到:
L ( X , Λ , μ ) = f ( X ) + μ 2 ∥ H ( X ) + 1 μ Λ ∥ F 2 − 1 2 μ ∥ Λ ∥ F 2 L(X, \Lambda, \mu) = f(X) + \frac{\mu}{2} \|H(X) + \frac{1}{\mu}\Lambda\|_F^2 - \frac{1}{2\mu}\|\Lambda\|_F^2 L(X,Λ,μ)=f(X)+2μ∥H(X)+μ1Λ∥F2−2μ1∥Λ∥F2 -
忽略常数项:注意到 − 1 2 μ ∥ Λ ∥ F 2 -\frac{1}{2\mu}\|\Lambda\|_F^2 −2μ1∥Λ∥F2 是关于 X X X 的常数项,因此在优化问题中可以忽略。最终得到简化形式:
min X f ( X ) + μ 2 ∥ H ( X ) + 1 μ Λ ∥ F 2 \min_X f(X) + \frac{\mu}{2}\|H(X) + \frac{1}{\mu}\Lambda\|_F^2 Xminf(X)+2μ∥H(X)+μ1Λ∥F2
总结
这种推导的关键是通过平方展开,将线性项 ⟨ Λ , H ( X ) ⟩ \langle \Lambda, H(X) \rangle ⟨Λ,H(X)⟩ 和二次项 ∥ H ( X ) ∥ F 2