ResNet
最核心的思想就是 恒等映射吧
那么现在来提出几个问题:
- 为什么deeper 以后train L 会增加?
- 恒等映射会解决什么问题?能否解决梯度非常陡峭的问题?
- 你想到了什么模型有类似的问题,如何进行改进的?
assumption & answer:
- parameter 的累积影响到梯度下降法,使得梯度消失(也有可能梯度变得很大 )(类似RNN)
- 可以用来处理梯度平缓 也就是梯度消失的问题;(0.0001 和 0.9 的梯度都是0);引入恒等映射相当于不论我叠多少层,L(MOdel(x)-x) = w 2 (假设我这里超过两层就用恒等映射),则避免了 w999 出现的 梯度消失和梯度变化陡峭的问题;
- RNN 中的梯度变化 — > LSTM 引入记忆细胞和门控开关解决(但是LSTM 相当于用上一层的输出求和来抵消w变化的程度使得当0.910(1000) 和 0.110(10)) 差距比本来要大一些,尽可能抵消参数指数的影响
参考论文:Deep Residual Learning for Image Recognition