基于Pre-Train的CNN模型的图像分类实验

时间:2024-12-20 11:36:13

基于Pre-Train的CNN模型的图像分类实验

 MatConvNet工具包提供了好几个在imageNet数据库上训练好的CNN模型,可以利用这个训练好的模型提取图像的特征。本文就利用其中的 “imagenet-caffe-ref”的模型,提取图像特征(softmax前一层的输出,4096维),在几个常用的图像分类的数据库中进行了相应的分类实验。这实验的过程中,有对图片进行左右翻转用于增加训练数据。下面结果的表格中:Original原始结果,Flip增加翻转后的结果。
需要用到的toolbox及模型:
liblinear: 用于训练SVM, 实验中采用linear SVM 以及 c=1
数据库及相应的实验结果:
1. Caltech-101以及Caltech-256
    随机的重复进行10次实验,取分类的结果的平均值,Training Images是每一个类别使用的训练图片数目。
 
Caltech-101
 Training Images  5  10  15  20  25  30
 Original  76.73 ± 0.79  82.06 ± 0.36  84.10 ± 0.69  85.32 ± 0.50  86.26 ± 0.44 86.96 ± 0.89 
 Flip 76.60 ± 0.49   82.09 ± 0.45  83.91 ± 0.49  85.46 ± 0.38  86.11 ± 0.34  86.98 ± 0.93
 
Caltech-256
 Training Images  15  30  45  60
 Original  63.76 ± 0.41  67.81 ± 0.56  69.71 ± 0.48  70.84 ± 0.69
 Flip  63.72 ± 0.51  67.74 ± 0.54  69.65 ± 0.76  70.75 ± 0.59
 
2. Oxford flowers-102
  flowers-102是一个用于花卉精细分类的数据库,数据库提供了Train,Validation,Test的集合。在实验过程中,直接使用(Train+Validation)进行训练,Test进行测试。
 Original  84.50
 Flip  85.14
 
3. Scene-15
    Scene-15是一个包含15类场景的数据,实验采用的每一场景取100张图片做训练,其余的做测试。重复进行10次实验
 Original  86.87 ± 0.75
 Flip  87.00 ± 0.41
 
4. UC Merced Land Use Dataset
   UC Merced Land Use Dataset是一个包含21类场景遥感卫星图像分类数据库(每个类别100张图片),实验采用的80训练,20测试,重复10次。
 Original  94.90 ± 0.95
 Flip  95.14 ± 1.05
5. Flickr Material
  Flickr Materia是一个关于材料的数据库,包含10种不同的材料(每种100张图片),实验采用50张做训练,剩下的50张做测试,重复10次实验。数据库还提供每一张图片的Mask,本实验没有考虑Mask
 Original  64.04 ± 2.20
 Flip  62.96 ± 1.54
6. UIUC Sports
  UIUC Sports是一个包含8中运动类别的数据集,实验过程中,每一个类别取100张图片做训练,其余的做测试。重复进行10次。
 Original  94.88 ± 1.02
 Flip  95.34 ± 0.83
7. MIT Scene
  MIT Scene包含有67个室内场景,实验过程中,每一个类别取80张图片做训练,其余的做测试。重复进行10次。
 Original  57.30 ± 1.18
 Flip  57.45 ± 0.72