优化问题
当 W W W, b b b, Y Y Y 固定时,原优化问题的目标函数变为:
min Z λ t r ( Z T 1 1 T Z ) + μ 2 ∥ Y − Z + 1 μ Λ ∥ F 2 \min_Z \lambda \mathrm{tr}\left(Z^T\mathbf{1}\mathbf{1}^TZ\right) + \frac{\mu}{2}\|Y - Z + \frac{1}{\mu}\Lambda\|_F^2 Zminλtr(ZT11TZ)+2μ∥Y−Z+μ1Λ∥F2
我们需要通过对 Z Z Z 求导并设导数为 0 来求解 Z Z Z 的最优值。
第一项的展开
λ
t
r
(
Z
T
1
1
T
Z
)
\lambda \mathrm{tr}\left(Z^T\mathbf{1}\mathbf{1}^TZ\right)
λtr(ZT11TZ)
这里的
1
1
T
\mathbf{1}\mathbf{1}^T
11T 是一个
n
×
n
n \times n
n×n 的矩阵,
1
\mathbf{1}
1 是全 1 的列向量。
t
r
(
A
)
\mathrm{tr}(A)
tr(A) 是矩阵
A
A
A 的迹(对角线元素之和)。
由于 t r ( A ) \mathrm{tr}(A) tr(A) 的性质 t r ( A B ) = t r ( B A ) \mathrm{tr}(AB) = \mathrm{tr}(BA) tr(AB)=tr(BA),这一项也可以写为:
λ t r ( Z T 1 1 T Z ) = λ ∥ Z T 1 ∥ 2 2 \lambda \mathrm{tr}(Z^T\mathbf{1}\mathbf{1}^TZ) = \lambda \|Z^T\mathbf{1}\|_2^2 λtr(ZT11TZ)=λ∥ZT1∥22
因此,这一项实际上对 Z Z Z 的优化作用是增加某种行与列的相互依赖性。
第二项的展开
μ 2 ∥ Y − Z + 1 μ Λ ∥ F 2 \frac{\mu}{2} \|Y - Z + \frac{1}{\mu}\Lambda\|_F^2 2μ∥Y−Z+μ1Λ∥F2
展开平方:
∥ Y − Z + 1 μ Λ ∥ F 2 = ∥ Y ∥ F 2 − 2 ⟨ Y , Z ⟩ + ∥ Z ∥ F 2 + 2 ⟨ Y , 1 μ Λ ⟩ − 2 ⟨ Z , 1 μ Λ ⟩ + ∥ 1 μ Λ ∥ F 2 \|Y - Z + \frac{1}{\mu}\Lambda\|_F^2 = \|Y\|_F^2 - 2\langle Y, Z \rangle + \|Z\|_F^2 + 2\langle Y, \frac{1}{\mu}\Lambda \rangle - 2\langle Z, \frac{1}{\mu}\Lambda \rangle + \|\frac{1}{\mu}\Lambda\|_F^2 ∥Y−Z+μ1Λ∥F2=∥Y∥F2−2⟨Y,Z⟩+∥Z∥F2+2⟨Y,μ1Λ⟩−2⟨Z,μ1Λ⟩+∥μ1Λ∥F2
由于我们最终只关心 Z Z Z,可以将与 Z Z Z 无关的常数项略去。于是,该项可以化简为:
μ 2 ∥ Y − Z + 1 μ Λ ∥ F 2 = μ 2 ∥ Z ∥ F 2 − μ ⟨ Z , Y ⟩ + ⟨ Z , Λ ⟩ + const. \frac{\mu}{2}\|Y - Z + \frac{1}{\mu}\Lambda\|_F^2 = \frac{\mu}{2}\|Z\|_F^2 - \mu\langle Z, Y \rangle + \langle Z, \Lambda \rangle + \text{const.} 2μ∥Y−Z+μ1Λ∥F2=2μ∥Z∥F2−μ⟨Z,Y⟩+⟨Z,Λ⟩+const.
目标函数的组合
将两部分结合,目标函数可以写为:
min Z λ t r ( Z T 1 1 T Z ) + μ 2 ∥ Z ∥ F 2 − μ ⟨ Z , Y ⟩ + ⟨ Z , Λ ⟩ \min_Z \lambda \mathrm{tr}\left(Z^T\mathbf{1}\mathbf{1}^TZ\right) + \frac{\mu}{2} \|Z\|_F^2 - \mu \langle Z, Y \rangle + \langle Z, \Lambda \rangle Zminλtr(ZT11TZ)+2μ∥Z∥F2−μ⟨Z,Y⟩+⟨Z,Λ⟩
展开 λ \lambda λ 的部分后,我们有:
min Z λ t r ( Z T 1 1 T Z ) + μ 2 t r ( Z T Z ) − μ t r ( Z T Y ) + t r ( Z T Λ ) \min_Z \lambda \mathrm{tr}(Z^T\mathbf{1}\mathbf{1}^TZ) + \frac{\mu}{2} \mathrm{tr}(Z^TZ) - \mu \mathrm{tr}(Z^TY) + \mathrm{tr}(Z^T\Lambda) Zminλtr(ZT11TZ)+2μtr(ZTZ)−μtr(ZTY)+tr(ZTΛ)
对 Z Z Z 求导
我们需要对 Z Z Z 求导,并设置导数为 0。
梯度规则
-
对于二次项 μ 2 t r ( Z T Z ) \frac{\mu}{2} \mathrm{tr}(Z^TZ) 2μ