论文学习- Convolutional Pose Machines 卷积位姿机

Abstract

Pose Machines提供了一个顺序预测框架，用于学习丰富的隐式空间模型。在这项工作中，我们展示了如何将卷积网络结合到用于学习图像特征的姿势机器框架和用于姿势估计任务的图像相关空间模型的系统设计。本文的贡献是隐式地模拟结构化预测任务中变量之间的长程依赖关系，例如关节姿态估计。我们通过设计一个由卷积网络组成的顺序架构来实现这一目标，该卷积网络直接在前一阶段的信念图上运行，为部件位置提供越来越精确的估计，而无需显式的图形模型风格推理。我们的方法通过提供自然学习目标函数来解决训练期间消失梯度的特征困难，该目标函数执行中间监督，从而补充反向传播的梯度并调节学习过程。我们在标准基准测试（包括MPII，LSP和FLIC数据集）上展示了最先进的性能并超越了竞争方法。

Introduction

我们引入卷积姿势机器（CPM）用于关节姿势估计的任务。 CPM继承了姿势机[29]架构的好处 - 隐式学习图像和多部分线索之间的长程依赖关系，学习和推理之间的紧密集成，模块化顺序设计 - 并将它们与卷积提供的优势结合起来架构：直接从数据中学习图像和空间上下文的特征表示的能力; 一种可区分的架构，允许通过反向传播进行全球联合培训; 以及有效处理大型训练数据集的能力。

CPM由一系列卷积网络组成，这些卷积网络重复产生每个部分位置的2D信念图1。在CPM的每个阶段，图像特征和前一阶段产生的信念图用作输入。信念图为后续阶段提供了对每个部分的位置的空间不确定性的表达性非参数编码，允许CPM学习部分之间关系的丰富图像相关空间模型。而不是使用图形模型[28,38,39]或专门地解析这样的信仰地图
后处理步骤[38,40]，我们学习直接在中间信念图上运行的卷积网络，并学习隐含的图像相关空间模型
零件之间的关系。整体提出的多级架构是完全可区分的，因此可以使用反向传播以端到端的方式进行训练。

在CPM的特定阶段，部分信念的空间背景为后续阶段提供了强烈消除歧义的线索。因此，CPM的每个阶段都会生成信念图，并对每个部分的位置进行越来越精确的估算（参见图1）。为了捕获部件之间的长距离相互作用，我们的顺序预测框架的每个阶段中的网络设计的动机是在图像和信念图上实现大的感受野。我们通过实验发现，信念图上的大型感受野对于学习远距离空间关系并提高准确性至关重要。

在CPM中组合多个卷积网络导致整个网络具有许多层，这些层面存在梯度消失的风险[4,5,10,12]
在学习期间。出现此问题的原因是，当传播通过网络的多个层时，反向传播的梯度强度会降低。虽然最近的工作2表明，在中间层监督非常深的网络有助于学习[20,36]，但它们大多局限于分类问题。在这项工作中，我们展示了结构化预测问题的方法例如姿势估计，CPM自然地建议一个补充梯度的系统框架，并通过网络周期性地执行中间监督来指导网络产生越来越准确的信念图。我们还讨论了这种顺序预测架构的不同训练方案。

我们的主要贡献是（a）通过顺序卷积体系结构学习隐式空间模型，以及（b）设计和训练这样的体系结构的系统方法，以学习结构化预测任务的图像特征和图像相关空间模型，而无需任何图形模型样式推断。我们在标准基准测试（包括MPII，LSP和FLIC数据集）上实现了最先进的结果，并分析了联合培训多阶段架构和重复中间监督的效果。

RelatedWork

关于姿势估计的经典方法是图像结构模型[2,3,9,14,26,27,30,43]，其中身体各部分之间的空间相关性是
表示为树状结构的图形模型，具有耦合连接肢体的运动学先验。这些方法在人的所有肢体都可见的图像上是成功的，但是容易出现特征误差，例如重复计算图像证据，这是由于树结构模型未捕获的变量之间的相关性而发生的。 Kiefel等人的工作。 [17]基于图形结构模型，但在底层图形表示方面有所不同。分层模型[35,37]表示分层树结构中不同比例和大小的部分之间的关系。这些模型的基本假设是较大的部分（对应于完整的肢体而不是关节）可以
通常具有辨别力的图像结构，可以更容易检测，从而有助于推理更小，更难检测的部件的位置。非树模型[8,16,19,33,42]结合了相互作用，这些相互作用引入了环以增加树结构，其中附加边缘捕获对称性，遮挡和远程关系。这些方法通常必须依赖近似值
在学习和测试时进行推理，因此必须权衡允许有效推理的空间关系模型的精确建模，通常使用简单的参数形式以允许快速推理。相比之下，基于顺序预测框架的方法[29]通过直接训练推理过程来学习隐式空间模型，其中变量之间可能存在复杂的相互作用，如[22,25,31,41]。

最近出现了对采用卷积结构进行关节姿态估计任务的模型的兴趣增加[6,7,23,24,28,38,39]。 Toshev等人。 [40]采用标准卷积结构直接回归笛卡尔坐标的方法[18]。最近的工作将图像回归到置信度图，并求助于图形模型，其需要手工设计的能量函数或空间概率先验的启发式初始化，以去除回归置信度图上的异常值。其中一些还利用专用网络模块进行精确细化[28,38]。在这项工作中，我们展示了回归置信度图适合输入到具有大的感受域的进一步卷积网络，以学习隐含的空间依赖性而无需使用
手工设计先验，并在所有精密区域实现最先进的性能，无需仔细初始化和专门的精确细化。 Pfister等。 [24]也使用具有大感受野的网络模块来捕获隐式空间模型。由于卷积的可微性，我们的模型可以在全球范围内进行训练，Tompson等人。 [39]和Steward等人。 [34]还讨论了联合培训的好处。

Carreira等。 [6]训练一个深度网络，使用误差反馈迭代地改进部分检测，但使用[40]中的笛卡尔表示法，这不会保留空间不确定性，导致高精度制度的准确性较低。在这项工作中，我们展示了顺序预测框架如何利用置信度图中保留的不确定性来编码丰富的空间背景，同时强制执行中间局部监督以解决消失梯度的问题。

Method

3.1

我们表示的第p个解剖土地标记的像素位置（我们称之为一部分）论文学习- Convolutional Pose Machines 卷积位姿机 ,Z是图像中所有（u,v）位置的集合。我们的目标是为所有的P（部件）预测图像位置，分类器gt（），被训练来预测阶层中每一级别每个部分的位置。在每一个阶段中，分类器基于从图片中提取的特征（xz 表示，d维）和周围像素产生的前一个分类器的信息维每个部分匹配位置的信念。

论文学习- Convolutional Pose Machines 卷积位姿机

在第一个阶段，产生如下信念度，论文学习- Convolutional Pose Machines 卷积位姿机是由分类器g1在第一个阶段的得分，用代表在时间为t的时候每个部分的信任度，w,h是图像的狂傲，半身模型总共有9个部件，加上一个背景响应层，总共10层，w*h*(p+1),其中 p=9

论文学习- Convolutional Pose Machines 卷积位姿机

在第二以及以后的阶段（即t大于等于2）分类器为每个部位预测信念图，基于图像数据和从上一个分类器产生的Yp附件的组织信息。论文学习- Convolutional Pose Machines 卷积位姿机是从bt-1 到组织信息的映射。每个阶段，计算出的信任度让每个部件的位置估计不断改善。后面的图像特征与第一阶段不同。使用增强的随机森林来预测gt.让手部图像特征在每个阶段都一样，并且在全阶段中手模型映射到论文学习- Convolutional Pose Machines 卷积位姿机都捕捉空间环境。

3.2

我们展示了姿势机器的预测和图像特征计算模块如何可以被深度卷积体系结构替代，从而允许直接从数据中学习图像和上下文特征表示。卷积体系结构还具有完全可区分的优势，从而实现CPM所有阶段的端到端联合培训。我们描述了CPM的设计，它结合了深度卷积体系结构的优点和姿势机器框架提供的隐式空间建模。

3.2.1利用局部图像证据进行关键点定位

卷积姿态机器的第一阶段从局部图像证据预测部分信念。图2C示出了用于使用深度卷积网络从局部图像证据进行局部检测的网络结构。证据是当地由于网络的ﬁ第一阶段接受ﬁ领域限制在输出像素位置的一个小补丁。我们用一个由ﬁVE卷积层由两个1×1卷积层，结果在一个完全卷积结构[ 21 ]网络结构。在实践中，为了达到一定的精度，我们规范的输入裁剪图像大小368×368（详见4.2节），并接受ﬁ在网络上面显示的是160×160像素。网络可以被看作是滑动深网络在图像和回归从各160×160图像块的局部图像证据p + 1大小的输出向量表示为每个部分的得分在图像中的位置。

3.2.2具有学习空间上下文特征的序列预测

为了使接收野变大，这篇论文在第二层及以后的阶段中使用了残差网络

论文学习- Convolutional Pose Machines 卷积位姿机

对于解决消失梯度问题，使用了中间监督的方法，计算损失函数

论文学习- Convolutional Pose Machines 卷积位姿机

论文还做了实验，检查中间监督的作用，我们跟踪不同深度层中梯度大小的变化网络，跨越训练时期，有和没有中间监督的模型。我们观察到，对于更接近输出的层，分布具有无论有无中间监督，都有很大差异; 然而，当我们从输出层向输入移动时，梯度幅度分布紧密地在零附近达到峰值，方差较小（梯度消失），没有中间监督。对于具有中间监督的模型，分布在整个网络中具有适度大的差异。在稍后的训练时期，对于具有中间监督的模型，所有层的方差均减小，并且对于模型而言在没有中间监督的情况下保持在零附近的峰值。

论文学习- Convolutional Pose Machines 卷积位姿机

总结：：：~！！！！

首先输入图像，在第一阶段我们使用的是局部的图像信息，通过多层卷积池化操作后，接收野扩大，通过分类器g1得到b1的信念图，在这个阶段我们有损失函数f1,在第二及以后的阶段，我们使用论文学习- Convolutional Pose Machines 卷积位姿机及函数不仅获得图像的内容信息，还获取纹理信息和空间信息，其中用增强的随机森林来预测gt,但是手部图像特征在每个阶段都一样，并且在全阶段中手模型映射都捕捉空间环境。在第二以及以后的阶段，gt预测时使用到经过几次卷积池化的特征和前一个阶段的组织信息,并通过使用残差网络扩大接收野，在每个阶段都有损失函数用于中间监督，并且可以端到端联合训练。