ImageNet数据集是为了促进计算机图像识别技术的发展而设立的一个大型图像数据集。
其图片数量最多,分辨率最高,含有的类别更多,有上千个图像类别。
每年ImageNet的项目组织都会举办一场ImageNet大规模视觉识别竞赛,从而会诞生许多图像识别模型。
下面介绍历代ImageNet图像识别模型:
2012年,多伦多大学的教授及其学生Alex参赛,使用深度学习处理图像识别问题,AlexNet网络模型将错误率从原来的25%降到了16%。下图是其网络结构
输入图像会经过5层卷积层(11*11卷积,5*5卷积,3个3*3卷积),有些卷积层后面还使用了池化层。
AlexNet的成果主要得益于以下几个方面:
1)训练了较深层的卷积神经网络
2)ImageNet提供了大量的训练样本,此外还使用了数据增强技术,因此神经网络的过拟合现象不严重
3)使用了dropout等技术,进一步降低了过拟合
2014年,ILSVRC竞赛上又出现了两个引人关注的模型:VGGNet和GoogleNet。相比AlexNet 16%的错误率,VGGNet把错误率降到了7%,GoogleNet则是6%。
VGGNet的网络结构示意图如下:
conv-3-512表示使用了3*3的卷积,卷积之后的通道数为512,从图中可以清晰的看出VGGNet的网络结构
2015年又新提出了一种名为深度残差网络(ResNet),深度残差网络比之前的任何模型都要深,它可以训练100层,甚至1000层,把错误率从6%降到了3.57%,也是ImageNet数据集上,机器表现首次优于人类。