文件名称:联合深度学习-深入浅出mfc
文件大小:275KB
文件格式:PDF
更新时间:2024-06-29 04:30:35
深度学习
2.2 深层结构的优势 深度学习模型意味着神经网络的结构深,由 很多层组成。而支持向量机和 Boosting 等其 它常用的机器学习模型都是浅层结构。有理 论证明,三层神经网络模型(包括输入层、 输出层和一个隐含层)可以近似任何分类函 数。既然如此,为什么需要深层模型呢? 理论研究表明,针对特定的任务,如果模型 的深度不够,其所需要的计算单元会呈指数 增加。这意味着虽然浅层模型可以表达相同 的分类函数,其需要的参数和训练样本要多 得多。浅层模型提供的是局部表达。它将高 维图像空间分成若干局部区域,每个局部区 域存储至少一个从训练数据中获得的模板。 浅层模型将一个测试样本和这些模板逐一匹 配,根据匹配的结果预测其类别。例如在支 持向量机模型中,这些模板就是支持向量; 在 近邻分类器中,这些模板是所有的训练 样本。随着分类问题复杂度的增加,图像空 间需要被划分成越来越多的局部区域,因而 需要越来越多的参数和训练样本。 深度模型能够减少参数的关键在于重复利用 中间层的计算单元。例如,它可以学习针对 人脸图像的分层特征表达。 底层可以从原 始像素学习滤波器,刻画局部的边缘和纹理 特征;通过对各种边缘滤波器进行组合,中 层滤波器可以描述不同类型的人脸器官; 高层描述的是整个人脸的全局特征。 深度学习提供的是分布式的特征表示。在 高的隐含层,每个神经元代表了一个属性分 类器,例如男女、人种和头发颜色等等。每 个神经元将图像空间一分为二,N 个神经元 的组合就可以表达 2 N 个局部区域,而用浅层 模型表达这些区域的划分至少需要个 2 N 模板。 由此我们可以看到深度模型的表达能力更强, 更有效率。 2.5 提取全局特征和上下文信息的能力 深度模型具有强大的学习能力,高效的特征 表达能力,从像素级原始数据到抽象的语义 概念逐层提取信息。这使得它在提取图像的 全局特征和上下文信息方面具有突出的优势。 这为解决一些传统的计算机视觉问题,如图 像分割和关键点检测,带来了新的思路。 以人脸的图像分割为例。为了预测每个像素 属于哪个脸部器官(眼睛、鼻子、嘴、头 发),通常的作法是在该像素周围取一个小 的区域,提取纹理特征(例如局部二值模 式),再基于该特征利用支持向量机等浅层 模型分类。因为局部区域包含信息量有限, 往往产生分类错误,因此要对分割后的图像 加入平滑和形状先验等约束。 事实上即使存在局部遮挡的情况下,人眼也 可以根据脸部其它区域的信息估计被遮挡处 的标注。这意味着全局和上下文的信息对于 局部的判断是非常重要的,而这些信息在基 于局部特征的方法中从 开始阶段就丢失了。 理想的情况下,模型应该将整幅图像作为输 入,直接预测整幅分割图。图像分割可以被 当作一个高维数据转换的问题来解决。这样 不但利用到了上下文信息,模型在高维数据 转换过程中也隐式地加入了形状先验。但是 由于整幅图像内容过于复杂,浅层模型很难 有效地捕捉全局特征。深度学习的出现使这 一思路成为可能,在人脸分割[11]、人体分割 [12]、人脸图像配准[13]和人体姿态估计等各 个方面都取得了成功[14]。 2.4 联合深度学习 一些计算机视觉学者将深度学习模型视为黑 盒子,这种看法是不全面的。事实上我们可 以发现传统计算机视觉系统和深度学习模型 存在着密切的联系,而且可以利用这种联系 提出新的深度模型和新的训练方法。这方面 一个成功的例子是用于行人检测的联合深度 学习[15]。一个计算机视觉系统包含了若干关