特征提取和分类是典型计算机视觉系统的两个关键阶段。视觉系统的准确性、稳健性和效率很大程度上取决于图像特征和分类器的质量。特征提取方法可以分为两个不同的类别,即基于手工的方法和基于特征学习的方法。分类器可以分为两组,即浅层模型和深层模型。
特征是任何独特的方面或特性,用于解决与特定应用相关的计算任务。n个特征的组合可以表示为n维向量,称为特征向量。特征向量的质量取决于其区分不同类别的图像样本的能力。良好的特征应该是信息丰富的,不受噪声和一系列变换的影响,并且计算快速。
分类是现代计算机视觉和模式识别的核心。分类器的任务是使用特征向量对图像或感兴趣区域(ROI)划分类别。分类任务的困难程度取决于来自相同类别图像的特征值的可变性,以及相对于来自不同类别图像的特征值的差异性。但是,由于噪声(以阴影、遮挡、透视扭曲等形式),异常值(例如,“建筑”类别的图像可能包含人),模糊性(例如 ,相同的矩形形状可以对应于桌子或建筑物窗户),缺少标签,仅有小训练样本可用,以及训练数据样本中的正负覆盖的不平衡。因此,设计分类器做出决策是一项具有挑战性的任务。
传统特征描述符:传统(手工设计)特征提取方法分为两大类:全局和局部。全局特征提取方法定义了一组有效描述整个图像的全局特征,因此,形状细节被忽略。全局特征也不适用于识别部分遮挡的对象。另一方面,局部特征提取方法提取关键点周围的局部区域,因此可以更好的处理遮挡。下面介绍一些局部特征提取方法。
(1)HOG描述符——通过边缘方向的直方图来描述图像内的对象外观和形状。实现分为4个步骤:
1.梯度计算。在图像的水平和垂直方向上,执行一维中心离散微分模板。
2.单元方向直方图。单元内的每个像素,基于该像素处梯度的模对每一个梯度方向区间投加权票。
3.描述符块。为了处理光照和对比度的变化,通过将单元组合在一起形成的更大的空间上相连的块,局部地归一化梯度强度。HOG描述符是来自所有区域内的、归一化的单元直方图部件的向量。
4.块的归一化。可以通过L2范数或者L1范数进行归一化。
(2)SIFT——尺度不变特征变换
SIFT提供了一组对象的特征,这些特征对于对象缩放和旋转是健壮的。分为以下4个步骤:
1.尺度空间的极值侦测。SIFT使用高斯差分(DoG),在所有尺度和图像位置上搜索DoG图像以寻求局部极值。
2.关键点精确定位。此步骤通过查找具有低对比度或在边缘上局部性较弱的那些点,从潜在关键点列表中移除不稳定点。
3.方向定位。为了实现图像旋转的不变性,基于其局部图像属性为每个关键点分配一个不变的方向。然后可以相对于该方向表示关键点描述符。
4.关键点描述符
SIFT数学思想复杂,需要多年的研究。
(3)SURF——加速健壮特征
SURF是SIFT的加速版。在SIFT中,高斯拉普拉斯算子用DoG近似,以构造尺度空间。SURF通过使用盒式滤波器估算LoG来加速此过程。
传统的手工工程特征的局限性
计算机视觉的进步是基于手工工程特征的。然而,特征工程师困难的、耗时的,并且需要关于问题领域的专业知识。手工工程特征的另一个缺点是它们在信息方面太稀疏,无法从图像中捕获。使用诸如深度神经网络的自动特征学习算法可以解决所有这些问题。