VGG论文的主要内容如下:
VGG研究了卷积网络深度在大规模的图像识别环境下对准确性的影响。
主要贡献是使用非常小的(3×3)卷积滤波器架构对网络深度的增加进行了全面评估,这表明通过将深度推到16-19加权层可以实现对现有技术配置的显著改进。
1 不同大小的核的区别,以及Alexnet与VGG对比
1.1 首先说明下小核与大核的区别:
VGG相比AlexNet的一个改进是采用连续的几个3x3的卷积核代替AlexNet中的较大卷积核(11x11,5x5)。
2个3*3的卷积层和一个5*5卷积层的区别?
多个卷积层可以增加网络的深度,从而学习更复杂的特征;
2个3*3的卷积层的参数少于一个5*5卷积层的参数;
即:采用堆积的小卷积核是优于采用大的卷积核,因为多层非线性层可以增加网络深度来保证学习更复杂的模式,而且代价还比较小(参数更少)。
1.2 Alexnet与VGG对比
如下图,可以简单的将VGG和AlexNet对比:
图中把VGG也当做是5 conv + 3 FC,(VGG中两个conv等价于Alexnet中一个conv)。
1 VGG网络配置测试
为了测试不同深度对于准确率的影响,配置了如下几种深度的网络。网络A中的11个加权层(8个卷积层和3个FC层)到网络E中的19个加权层(16个卷积层和3个FC层)(即VGG19),D16层即VGG16。卷积层的宽度(通道数)相当小,从第一层中的64开始,然后在每个最大池化层之后增加2倍,直到达到512。
尽管VGG可以在ImageNet上表现很好,但是将其部署在一个适度大小的GPU上是困难的,因为需要VGG在内存和时间上的计算要求很高。由于卷积层的通道数过大,VGG并不高效。比如,一个3x3的卷积核,如果其输入和输出的通道数均为512,那么需要的计算量为9x512x512。