神经网络反向传播算法公式推导

要推导反向传播算法，并了解每一层的参数梯度如何计算，以及每一层的梯度受到哪些值的影响，我们使用一个简单的神经网络结构：

假设权重矩阵和偏置如下：

输入为 $x = [x_1, x_2]$ ，期望输出为 $y$ ，损失函数为均方误差（MSE）。

前向传播：

反向传播：

计算输出层的梯度：
- 损失函数对输出层输入的梯度：
  $\frac{\partial L}{\partial z_2} = \hat{y} - y$
计算从输出层到隐藏层的梯度：
- 隐藏层激活对权重的梯度：
  $\frac{\partial L}{\partial W_2} = \frac{\partial L}{\partial z_2} \cdot a_1$
- 隐藏层激活对偏置的梯度：
  $\frac{\partial L}{\partial b_2} = \frac{\partial L}{\partial z_2}$
计算隐藏层的梯度：
- 损失函数对隐藏层激活的梯度：
  $\frac{\partial L}{\partial a_1} = W_2 \cdot \frac{\partial L}{\partial z_2}$
- 隐藏层对隐藏层输入的梯度（ReLU的梯度）：
  $\frac{\partial L}{\partial z_1} = \frac{\partial L}{\partial a_1} \cdot \text{ReLU}'(z_1)$
  - ReLU梯度 $\text{ReLU}'(z_1)$ 在 $z_1 > 0$ 时为1，否则为0
计算从输入层到隐藏层的梯度：
- 输入对权重的梯度：
  $\frac{\partial L}{\partial W_1} = \frac{\partial L}{\partial z_1} \cdot x^T$
- 输入对偏置的梯度：
  $\frac{\partial L}{\partial b_1} = \frac{\partial L}{\partial z_1}$

秒客网