增广拉格朗日函数简单推导

时间:2024-11-20 07:23:19

原始的增广拉格朗日函数是:

L ( X , Λ , μ ) = f ( X ) + ⟨ Λ , H ( X ) ⟩ + μ 2 ∥ H ( X ) ∥ F 2 L(X, \Lambda, \mu) = f(X) + \langle \Lambda, H(X) \rangle + \frac{\mu}{2} \|H(X)\|_F^2 L(X,Λ,μ)=f(X)+Λ,H(X)⟩+2μH(X)F2

其中:

  • ⟨ Λ , H ( X ) ⟩ \langle \Lambda, H(X) \rangle Λ,H(X)⟩ 表示拉格朗日乘子 Λ \Lambda Λ 与约束函数 H ( X ) H(X) H(X) 的内积;
  • ∥ H ( X ) ∥ F 2 \|H(X)\|_F^2 H(X)F2 是约束函数 H ( X ) H(X) H(X) 的 Frobenius 范数的平方,表示对约束的惩罚项。

现在,我们的目标是将其转化为简化后的形式:

min ⁡ X f ( X ) + μ 2 ∥ H ( X ) + 1 μ Λ ∥ F 2 \min_X f(X) + \frac{\mu}{2}\left\|H(X) + \frac{1}{\mu}\Lambda\right\|_F^2 Xminf(X)+2μ H(X)+μ1Λ F2

推导过程

关键在于增广拉格朗日函数中的两项 ⟨ Λ , H ( X ) ⟩ \langle \Lambda, H(X) \rangle Λ,H(X)⟩ μ 2 ∥ H ( X ) ∥ F 2 \frac{\mu}{2} \|H(X)\|_F^2 2μH(X)F2

  1. 展开范数平方:将惩罚项 μ 2 ∥ H ( X ) ∥ F 2 \frac{\mu}{2} \|H(X)\|_F^2 2μH(X)F2 展开:
    μ 2 ∥ H ( X ) ∥ F 2 = μ 2 ∑ i , j H ( X ) i j 2 \frac{\mu}{2} \|H(X)\|_F^2 = \frac{\mu}{2} \sum_{i,j} H(X)_{ij}^2 2μH(X)F2=2μi,jH(X)ij2

  2. 合并内积项和范数项:注意到 ⟨ Λ , H ( X ) ⟩ \langle \Lambda, H(X) \rangle Λ,H(X)⟩ 可以看作是一个线性项。为了简化,将其引入到范数的平方中,观察以下等式:
    ∥ H ( X ) + 1 μ Λ ∥ F 2 = ∥ H ( X ) ∥ F 2 + 2 ⟨ 1 μ Λ , H ( X ) ⟩ + ∥ 1 μ Λ ∥ F 2 \|H(X) + \frac{1}{\mu}\Lambda\|_F^2 = \|H(X)\|_F^2 + 2\langle \frac{1}{\mu}\Lambda, H(X) \rangle + \|\frac{1}{\mu}\Lambda\|_F^2 H(X)+μ1ΛF2=H(X)F2+2μ1Λ,H(X)⟩+μ1ΛF2

    从这里可以看出, ⟨ Λ , H ( X ) ⟩ \langle \Lambda, H(X) \rangle Λ,H(X)⟩ 是范数平方的一个部分。

  3. 代入原函数:将这个展开结果代入到原始的增广拉格朗日函数中:
    L ( X , Λ , μ ) = f ( X ) + ⟨ Λ , H ( X ) ⟩ + μ 2 ∥ H ( X ) ∥ F 2 L(X, \Lambda, \mu) = f(X) + \langle \Lambda, H(X) \rangle + \frac{\mu}{2} \|H(X)\|_F^2 L(X,Λ,μ)=f(X)+Λ,H(X)⟩+2μH(X)F2
    使用上述展开,我们得到:
    L ( X , Λ , μ ) = f ( X ) + μ 2 ∥ H ( X ) + 1 μ Λ ∥ F 2 − 1 2 μ ∥ Λ ∥ F 2 L(X, \Lambda, \mu) = f(X) + \frac{\mu}{2} \|H(X) + \frac{1}{\mu}\Lambda\|_F^2 - \frac{1}{2\mu}\|\Lambda\|_F^2 L(X,Λ,μ)=f(X)+2μH(X)+μ1ΛF22μ1∥ΛF2

  4. 忽略常数项:注意到 − 1 2 μ ∥ Λ ∥ F 2 -\frac{1}{2\mu}\|\Lambda\|_F^2 2μ1∥ΛF2 是关于 X X X 的常数项,因此在优化问题中可以忽略。最终得到简化形式:
    min ⁡ X f ( X ) + μ 2 ∥ H ( X ) + 1 μ Λ ∥ F 2 \min_X f(X) + \frac{\mu}{2}\|H(X) + \frac{1}{\mu}\Lambda\|_F^2 Xminf(X)+2μH(X)+μ1ΛF2

总结

这种推导的关键是通过平方展开,将线性项 ⟨ Λ , H ( X ) ⟩ \langle \Lambda, H(X) \rangle Λ,H(X)⟩ 和二次项 ∥ H ( X ) ∥ F 2