特征和分类器——《卷积神经网络与计算机视觉》读书笔记

　　特征提取和分类是典型计算机视觉系统的两个关键阶段。视觉系统的准确性、稳健性和效率很大程度上取决于图像特征和分类器的质量。特征提取方法可以分为两个不同的类别，即基于手工的方法和基于特征学习的方法。分类器可以分为两组，即浅层模型和深层模型。

　　特征是任何独特的方面或特性，用于解决与特定应用相关的计算任务。n个特征的组合可以表示为n维向量，称为特征向量。特征向量的质量取决于其区分不同类别的图像样本的能力。良好的特征应该是信息丰富的，不受噪声和一系列变换的影响，并且计算快速。

　　分类是现代计算机视觉和模式识别的核心。分类器的任务是使用特征向量对图像或感兴趣区域（ROI）划分类别。分类任务的困难程度取决于来自相同类别图像的特征值的可变性，以及相对于来自不同类别图像的特征值的差异性。但是，由于噪声（以阴影、遮挡、透视扭曲等形式），异常值（例如，“建筑”类别的图像可能包含人），模糊性（例如，相同的矩形形状可以对应于桌子或建筑物窗户），缺少标签，仅有小训练样本可用，以及训练数据样本中的正负覆盖的不平衡。因此，设计分类器做出决策是一项具有挑战性的任务。

传统特征描述符：传统（手工设计）特征提取方法分为两大类：全局和局部。全局特征提取方法定义了一组有效描述整个图像的全局特征，因此，形状细节被忽略。全局特征也不适用于识别部分遮挡的对象。另一方面，局部特征提取方法提取关键点周围的局部区域，因此可以更好的处理遮挡。下面介绍一些局部特征提取方法。

　　　　（1）HOG描述符——通过边缘方向的直方图来描述图像内的对象外观和形状。实现分为4个步骤：

　　　　　　1.梯度计算。在图像的水平和垂直方向上，执行一维中心离散微分模板。

　　　　　　2.单元方向直方图。单元内的每个像素，基于该像素处梯度的模对每一个梯度方向区间投加权票。

　　　　　　3.描述符块。为了处理光照和对比度的变化，通过将单元组合在一起形成的更大的空间上相连的块，局部地归一化梯度强度。HOG描述符是来自所有区域内的、归一化的单元直方图部件的向量。

　　　　　　4.块的归一化。可以通过L2范数或者L1范数进行归一化。

　　　　（2）SIFT——尺度不变特征变换

　　　　　　SIFT提供了一组对象的特征，这些特征对于对象缩放和旋转是健壮的。分为以下4个步骤：

　　　　　　1.尺度空间的极值侦测。SIFT使用高斯差分（DoG)，在所有尺度和图像位置上搜索DoG图像以寻求局部极值。

　　　　　　2.关键点精确定位。此步骤通过查找具有低对比度或在边缘上局部性较弱的那些点，从潜在关键点列表中移除不稳定点。

　　　　　　3.方向定位。为了实现图像旋转的不变性，基于其局部图像属性为每个关键点分配一个不变的方向。然后可以相对于该方向表示关键点描述符。

　　　　　　4.关键点描述符

　　　　　　SIFT数学思想复杂，需要多年的研究。

　　　　（3）SURF——加速健壮特征

　　　　　　SURF是SIFT的加速版。在SIFT中，高斯拉普拉斯算子用DoG近似，以构造尺度空间。SURF通过使用盒式滤波器估算LoG来加速此过程。

　　　　传统的手工工程特征的局限性

　　　　计算机视觉的进步是基于手工工程特征的。然而，特征工程师困难的、耗时的，并且需要关于问题领域的专业知识。手工工程特征的另一个缺点是它们在信息方面太稀疏，无法从图像中捕获。使用诸如深度神经网络的自动特征学习算法可以解决所有这些问题。