深度神经网络的最后一层往往是全连接层+Softmax（分类网络），如下图所示，图片来自StackExchange。

先看一下计算方式：全连接层将权重矩阵与输入向量相乘再加上偏置，将

y^= s o f t m a x (z) = s o f t m a x (W T x + b)

其中，

s o f t m a x (z j) = e z j \sum K e z j

若拆成每个类别的概率如下：

y j^= s o f t m a x (z j) = s o f t m a x (w j \cdot x + b j)

其中，

该如何理解？

下面提供3个理解角度：加权角度、模版匹配角度与几何角度

加权角度

加权角度可能是最直接的理解角度。

通常将网络最后一个全连接层的输入，即上面的

z j = w j \cdot x + b j = w j 1 x 1 + w j 2 x 2 + \dots + w j

将

模板匹配

如果是只有一个全连接层的神经网络（相当于线性分类器），将每个类别的模板可以直接可视化如下，图片素材来自CS231n。

如果是多层神经网络，最后一个全连接层的模板是特征空间的模板，可视化需要映射回输入空间。

仍将全连接层的输入

如果是二分类问题，使用线性分类器

多分类怎么办？为每个类别设置一个超平面，通过多个超平面对特征空间进行划分，一个区域对应一个类别。

d j = w j \cdot x + b j | | w j | |

而分数

如下图所示：

相比

经过全连接层，我们获得了

y j^= s o f t m a x (z j) = e z j \sum K e z j

本文介绍了3种角度来更直观地理解全连接层+Softmax，

视角不同，看到的画面就不同，就会萌生不同的idea。有些时候，换换视角问题就迎刃而解了。

以上。