神经网络反向传播交叉熵 计算损失函数对隐藏层偏置b1的梯度

时间:2024-10-16 12:20:24

本文是交叉熵损失函数为代表的两层神经网络的反向传播量化求导计算公式中的一个公式,单独拿出来做一下解释说明。


公式 8-19 计算的是损失函数 L L L 对隐藏层偏置 b 1 b_1 b1 的梯度。这个步骤是反向传播算法中的关键部分,用来更新隐藏层偏置 b 1 b_1 b1,从而优化模型。下面我将详细解释公式 8-19 的推导过程及其含义。

公式 8-19 的表达式

∂ L ∂ b 1 = ∂ L ∂ a 2 ⋅ ∂ a 2 ∂ Z 2 ⋅ ∂ Z 2 ∂ a 1 ⋅ ∂ a 1 ∂ Z 1 ⋅ ∂ Z 1 ∂ b 1 = ( a 2 − y ) w 2 σ ′ ( Z 1 ) (8-19) \frac{\partial L}{\partial b_1} = \frac{\partial L}{\partial a_2} \cdot \frac{\partial a_2}{\partial Z_2} \cdot \frac{\partial Z_2}{\partial a_1} \cdot \frac{\partial a_1}{\partial Z_1} \cdot \frac{\partial Z_1}{\partial b_1} = (a_2 - y) w_2 \sigma'(Z_1) \tag{8-19} b1L=a2LZ2a2a1Z2Z1a1b1Z1=(a2y)w2σ(Z1)(8-19)

1. 符号解释

  • L L L:损失函数,一般在分类任务中采用交叉熵损失。
  • b 1 b_1 b1:隐藏层的偏置项,它是加入到隐藏层神经元的输入上的一个常量。
  • Z 1 Z_1 Z1:隐藏层的加权和,即隐藏层的输入值,它是输入数据经过权重和偏置线性组合后的结果。
  • a 1 a_1 a1:隐藏层的激活值,是通过激活函数 σ ( Z 1 ) \sigma(Z_1) σ(Z1) 计算得到的输出。
  • Z 2 Z_2 Z2:输出层的加权和,即输出层的输入值。
  • a 2 a_2 a2:输出层的激活值,即模型预测的结果(通过 sigmoid 或其他激活函数计算)。
  • w 2 w_2 w2:连接隐藏层和输出层的权重。
  • y y y:真实标签,表示样本的实际类别。
  • σ ′ ( Z 1 ) \sigma'(Z_1) σ(Z1):隐藏层激活函数的导数,表示激活函数对输入 Z 1 Z_1 Z1 的变化率。

2. 推导过程:链式法则的应用

为了推导公式 8-19,我们应用链式法则,逐层计算损失函数 L L L 对隐藏层偏置 b 1 b_1 b1 的导数。

第一步:损失函数对输出层激活值 a 2 a_2 a2 的导数 ∂ L ∂ a 2 \frac{\partial L}{\partial a_2} a2L

根据公式 8-13,损失函数对输出层激活值 a 2 a_2 a2 的导数为:
∂ L ∂ a 2 = a 2 − y \frac{\partial L}{\partial a_2} = a_2 - y a2L=a2y

这是输出层的误差,表示模型的预测值 a 2 a_2 a2 和真实标签 y y y 之间的差异。

第二步:输出层激活值 a 2 a_2 a2 对输出层加权和 Z 2 Z_2 Z2 的导数 ∂ a 2 ∂ Z 2 \frac{\partial a_2}{\partial Z_2} Z2a2

输出层的激活值 a 2 a_2 a2 是通过激活函数(如 sigmoid)从加权和 Z 2 Z_2 Z2 计算得到的。因此:
∂ a 2 ∂ Z 2 = σ ′ ( Z 2 ) \frac{\partial a_2}{\partial Z_2} = \sigma'(Z_2) Z2a2=σ(Z2)

其中,sigmoid 函数的导数为:
σ ′ ( Z 2 ) = a 2 ( 1 − a 2 ) \sigma'(Z_2) = a_2(1 - a_2) σ(Z2)=a2(1a2)

第三步:输出层加权和 Z 2 Z_2 Z2 对隐藏层激活值 a 1 a_1 a1 的导数 ∂ Z 2 ∂ a 1 \frac{\partial Z_2}{\partial a_1} a1Z2