卷积神经网络CNN

CNN通常用于影像处理

为什么需要CNN

为什么需要CNN，我用普通的fully connected的反向传播网络进行图像训练会怎样

需要过多参数

假设一张彩色的图为100×100的，那么像素点就是100×100×3，那么输入层为三万维

假设下一层隐含层有1000个神经元，那么这个神经网络第一层就已经有30000×1000个参数了

——CNN做的事情，就是简化这个神经网络的架构

——我们用一些人的理解，不要使用fully connected的神经网络，尽可能把不需要的参数从一开始就过滤掉

如何拿掉参数

为什么我们能够将一些参数拿掉？为什么我们可以简化这个网络架构？

减少冗余神经元

我们神经元的训练，是为了观测图片上的某一个patterns

比如某个神经元负责侦测有没有鸟嘴，有没有翅膀，有没有爪子等

Some patterns are much smaller than the whole image
因此，我们可以只观测部分，不需要观测整张图

A neuron does not have to see the whole image to discover the pattern.

卷积神经网络CNN

——侦测鸟嘴这部分的工作是一样的；我们不需要说，用一个神经元侦测一下左上方有没有鸟嘴，再用另一个神经元侦测中间部分有没有鸟嘴

——简化的基本就是，去除这种冗余的神经元，使得统一

Subsampling

将像素点偶数列/偶数行删除
Subsampling the pixels will not change the object.

卷积神经网络CNN

CNN步骤

卷积神经网络CNN

Property 1

某些patterns比整张图小的多，因此可以观测局部
Property 2

某些同一种patterns出现在不同的地方
Property 3

可以做Subsampling

Property1和Property2主要通过卷积操作完成

Property3主要通过Max Pooling完成

Convolution

——卷积

会存在一堆Filter(这些Filter相当于全连接网络的一个神经元)
每一个Filter本质都是一个矩阵，矩阵里的每一个元素相当于网络的参数，和神经元的weight和bias一样，是需要train出来的
每一个Filter，在侦测一个pattern

例如，现在6×6的一个image，有一个Filter是3×3，这个Filter的作用相当于在侦测一个3×3的pattern

步骤

将Filter放于图像上，与图像对应位置做内积
实现property1,变成寻找对应pattern

挪动Filter的位置，这个挪动位置的多少，用stride表示

这个stride是超参数，需要自己设定和调节

这个Filter要检测的pattern，得到最大值分布在左上角和左下角，因此这个Filter对应检测的pattern分布在这个图上的左上角和左下角，就能够实现property2.

——同一个pattern，出现在不同位置，用同一个filter就能检测出来

很多很多个Filter工作完成之后，形成Feature Map

缺陷

当你的pattern是不同大小的时候，会出现说你需要不同Filter才能够处理

例如当你的图像中，有大的鸟嘴和小的鸟嘴，需要不同size的Filter才能够解决甄别出鸟嘴

方法一：如果你实现知道图像的pattern是偏大还是偏小，可以去先做normalized这件事

方法二：DeepMind里提到一个新的方式，在CNN之前加多一层隐含层，该层需要提示了，需要将图片的哪一部分进行缩放，旋转等操作，再进入CNN中训练，可以得到比较好的结果

——对于彩图如何处理呢？因为有3个颜色通道(RGB)，相当于是有一张图上有3个image,每一层分别代表RGB层的值

卷积神经网络CNN

——这个时候，你的Filter就不是一个矩阵了，也是一个3维的立方体

卷积神经网络CNN

注意

我们在做内积的时候，并不是把RGB每一层颜色，分开来算内积

而是把这三层和Filter一块来计算，从整体上来考虑这个pattern

在神经网络中理解Filter

卷积的过程，就是等同于一个网络删掉某些weight训练的结果

将image拉直

内积对应相乘，等于某个值成对应权重，最后输出内积结果
只有对应框起来的那些神经元，才会进行连接

通过这种方式，实现更少的参数
同时，当我们通过stride进行挪动的时候，这个Filter不变，因此weight是不变的，只是连接的神经元变化了，达到了Share weights的功能
这个时候就能实现更少的参数，因为用的是同一组weights

如何实现share weights

原理和反向传播网络是一样的

对于不连接的线，只要让它的weight一直是0，一直不训练它，就可以实现不完全连接的网络

对于同一组weight，我们通过反向传播计算出多组梯度，然后取梯度平均，让他们update同样的量

Max Pooling

——SubSampling

对得到的矩阵，可以四个为一组，合并成一个值

合并方式有很多：可以选其中最大值，可以取平均值

达到让你的image变小的效果
每一个Filter就能带来一层
然后你就得到了比较小的image,然后再重复卷积-池化

Flatten

——扁平化

得到的Feature map拉直
丢进Fully connected的网络中进行训练就可以了

CNN in keras

——你只需要修改网络的结构和输入的格式

——本来在DNN里面，input是一个向量vector

——CNN会考虑这个image的几何空间的，因此需要input一个张量tensor(高维的向量)

model.add(Conv2D(25,3,3,input_shape=(1,28,28)))
#Conv2D(25,3,3意味着有25个Filter，每个Filter是3*3的
#input_shape=(1,28,28)表明你输入的图片是28*28的，每个pixel是一个颜色，因此是1；如果是RGB的话需要3个颜色通道

model.add(MaxPooling2D((2,2)))
#我们把feature map的东西，按照2*2来考虑，进行最大池化

卷积神经网络CNN

——扁平化

model.add(Flatten())

卷积神经网络CNN

可解释性

第一层的filter是比较容易解释的，我们只需要看它的值，就能够直到这个filter在detect什么特征
但是第二层往后的filter，它直接针对的对象，并不是image的东西；而且它考虑的范围，并不是一个矩阵，而是一个高维的立方体

——如何识别这个filter是做什么的

把第k个filter的输出拿出来
定义：Degree of the activation of the k-th filter

定义一个东西，能衡量第k个filter有多activation
$a^k=\sum_{i=1}^{11}\sum_{j=1}^{11}a_{ij}^k$
我们希望直到这个filter做的是什么，我们找一张image，这个image能够使得 $a^k$ 最大

假设我们input的image是x
$x^*=\arg\max_xa^k$
这个image——x能够让上述定义的Degree最大

这个也可以通过梯度下降法来实现

以往的过程是，我们通过image来update filter的参数，来使得可以训练出一个较好的神经网络模型
当我们希望找到filter寻找的对应是什么feature时，我们可以反向——固定filter的参数，取update image，来找到这个image

——然后结果大概是这样子

我们可以看到，这些filter最match的image，都是一些纹路
例如第一行第三个的filter，就是寻找一种斜条纹
每个filter detect的就是不同角度的线条

——fully connected neural network的每个神经元做的是什么事情呢？

如法炮制刚才的做法

我们定义一个神经元的输出的是 $a_j$
然后我们需要找到一个image能够使得这个 $a_j$ 最大
$x^*=\arg\max_xa^j$

——得到的结果大概是这样的

因为在做卷积这件事的过程，其实是在寻找一些feature，因此可以看到filter侦测的是类似于纹路的东西

因此我们可以看到，我们丢进去全连接的网络中，神经元输出的东西是不一样的

因为这个网络的工作是看整张图，是一个完整的图形，而不是一个局部的纹路

——虽然考虑的并不是是哪个数字，但是是某种线条中的图案

——考虑output

我们直接考虑output的输出，会不会得到数字呢？

然后反向寻找，使之最大的image
$x^*=\arg\max_xy^i$

——得到的结果是这样的

为什么是这样呢？

因为神经网络学习到的东西和人类学习的东西其实不太一样的。我们肉眼其实看不出上述的结果图有什么差别

我们将上面的图放进去CNN里面去训练，它就会反应说这个就是0，这个就是1，它就是能够区分

推荐文章——“Deep Neural Networks are Easily Folled”

https://ieeexplore.ieee.org/document/7298640

——怎样让它表现出来像数字

因为一张图是不是数字，我们都会有一些假设，会有一些东西肯定不是数字

我们应该对这个y做一些规范化regularization

对输入的x做一些constraint(约束)

这个约束告诉机器，这个x虽然能够让你的y很大，但是它不是数字
$x^*=\arg\max_x(y^i-\sum_{i,j}|x_{ij}|)$
$\sum_{i,j}|x_{ij}|$ 所有pixel的values，这就是L1的正则项

得到的结果是这样的

——这样之后，你得到的x就比较像数字了，你会发现6还是比较像的

让机器所看到的东西放大呈现出来，实际上是目前Deep Dream和Deep Style做的事情

Deep Style

输入一张图片，让它的风格像某个著名的画作

卷积神经网络CNN

参考文献——“A Neural Algorithm of Artistic Style”

[1508.06576] A Neural Algorithm of Artistic Style (arxiv.org)

——核心思路

将第一张照片放进CNN里训练，得到Filter的output
这个output得到的是第一张图有怎样的内容
然后将呐喊放进CNN里训练，得到的是filter和filter之间的correlation(相关性)
这个相关性代表的就是这张图里有怎样的风格
使用同一个CNN，去找到一个image
这个image通过filter后的输出能够像第一张照片的output；
这个image输出的filter之间的correlation要像第二张照片

Learn more

让机器画出一些image

PixelRNN

[1601.06759] Pixel Recurrent Neural Networks (arxiv.org)

Variation Autoencoder(VAE)

[1312.6114] Auto-Encoding Variational Bayes (arxiv.org)

Generative Adversarial Network(GAN)

[1406.2661] Generative Adversarial Networks (arxiv.org)

秒客网

卷积神经网络CNN

卷积神经网络CNN

为什么需要CNN

如何拿掉参数

减少冗余神经元

Subsampling

CNN步骤

Convolution

步骤

在神经网络中理解Filter

Max Pooling

Flatten

CNN in keras

可解释性

Deep Style

更多的应用

Alpha Go

Speech

Text

Learn more

相关文章