一个交替优化问题的求解(续)

时间:2024-11-20 14:33:46

优化问题

W W W, b b b, Y Y Y 固定时,原优化问题的目标函数变为:

min ⁡ Z λ t r ( Z T 1 1 T Z ) + μ 2 ∥ Y − Z + 1 μ Λ ∥ F 2 \min_Z \lambda \mathrm{tr}\left(Z^T\mathbf{1}\mathbf{1}^TZ\right) + \frac{\mu}{2}\|Y - Z + \frac{1}{\mu}\Lambda\|_F^2 Zminλtr(ZT11TZ)+2μYZ+μ1ΛF2

我们需要通过对 Z Z Z 求导并设导数为 0 来求解 Z Z Z 的最优值。

第一项的展开

λ t r ( Z T 1 1 T Z ) \lambda \mathrm{tr}\left(Z^T\mathbf{1}\mathbf{1}^TZ\right) λtr(ZT11TZ)
这里的 1 1 T \mathbf{1}\mathbf{1}^T 11T 是一个 n × n n \times n n×n 的矩阵, 1 \mathbf{1} 1 是全 1 的列向量。 t r ( A ) \mathrm{tr}(A) tr(A) 是矩阵 A A A 的迹(对角线元素之和)。

由于 t r ( A ) \mathrm{tr}(A) tr(A) 的性质 t r ( A B ) = t r ( B A ) \mathrm{tr}(AB) = \mathrm{tr}(BA) tr(AB)=tr(BA),这一项也可以写为:

λ t r ( Z T 1 1 T Z ) = λ ∥ Z T 1 ∥ 2 2 \lambda \mathrm{tr}(Z^T\mathbf{1}\mathbf{1}^TZ) = \lambda \|Z^T\mathbf{1}\|_2^2 λtr(ZT11TZ)=λZT122

因此,这一项实际上对 Z Z Z 的优化作用是增加某种行与列的相互依赖性。

第二项的展开

μ 2 ∥ Y − Z + 1 μ Λ ∥ F 2 \frac{\mu}{2} \|Y - Z + \frac{1}{\mu}\Lambda\|_F^2 2μYZ+μ1ΛF2

展开平方:

∥ Y − Z + 1 μ Λ ∥ F 2 = ∥ Y ∥ F 2 − 2 ⟨ Y , Z ⟩ + ∥ Z ∥ F 2 + 2 ⟨ Y , 1 μ Λ ⟩ − 2 ⟨ Z , 1 μ Λ ⟩ + ∥ 1 μ Λ ∥ F 2 \|Y - Z + \frac{1}{\mu}\Lambda\|_F^2 = \|Y\|_F^2 - 2\langle Y, Z \rangle + \|Z\|_F^2 + 2\langle Y, \frac{1}{\mu}\Lambda \rangle - 2\langle Z, \frac{1}{\mu}\Lambda \rangle + \|\frac{1}{\mu}\Lambda\|_F^2 YZ+μ1ΛF2=YF22Y,Z+ZF2+2Y,μ1Λ2Z,μ1Λ+μ1ΛF2

由于我们最终只关心 Z Z Z,可以将与 Z Z Z 无关的常数项略去。于是,该项可以化简为:

μ 2 ∥ Y − Z + 1 μ Λ ∥ F 2 = μ 2 ∥ Z ∥ F 2 − μ ⟨ Z , Y ⟩ + ⟨ Z , Λ ⟩ + const. \frac{\mu}{2}\|Y - Z + \frac{1}{\mu}\Lambda\|_F^2 = \frac{\mu}{2}\|Z\|_F^2 - \mu\langle Z, Y \rangle + \langle Z, \Lambda \rangle + \text{const.} 2μYZ+μ1ΛF2=2μZF2μZ,Y+Z,Λ+const.


目标函数的组合

将两部分结合,目标函数可以写为:

min ⁡ Z λ t r ( Z T 1 1 T Z ) + μ 2 ∥ Z ∥ F 2 − μ ⟨ Z , Y ⟩ + ⟨ Z , Λ ⟩ \min_Z \lambda \mathrm{tr}\left(Z^T\mathbf{1}\mathbf{1}^TZ\right) + \frac{\mu}{2} \|Z\|_F^2 - \mu \langle Z, Y \rangle + \langle Z, \Lambda \rangle Zminλtr(ZT11TZ)+2μZF2μZ,Y+Z,Λ

展开 λ \lambda λ 的部分后,我们有:

min ⁡ Z λ t r ( Z T 1 1 T Z ) + μ 2 t r ( Z T Z ) − μ t r ( Z T Y ) + t r ( Z T Λ ) \min_Z \lambda \mathrm{tr}(Z^T\mathbf{1}\mathbf{1}^TZ) + \frac{\mu}{2} \mathrm{tr}(Z^TZ) - \mu \mathrm{tr}(Z^TY) + \mathrm{tr}(Z^T\Lambda) Zminλtr(ZT11TZ)+2μtr(ZTZ)μtr(ZTY)+tr(ZTΛ)


Z Z Z 求导

我们需要对 Z Z Z 求导,并设置导数为 0。

梯度规则
  1. 对于二次项 μ 2 t r ( Z T Z ) \frac{\mu}{2} \mathrm{tr}(Z^TZ) 2μ