高分辨网络HRNet

时间:2024-04-12 09:12:14

论文:Deep High-Resolution Representation Learning for Visual Recognition

Github:https://github.com/HRNet

 

2020TPAMI

论文提出了一个通用型网络结构,HRNet。最大的亮点就是具有丰富的低分辨和高分辨的融合特征。在分类,检测,分割,人体姿态估计,人脸关键点检测,超分,光流估计,深度估计等诸多任务都取得了非常好的效果,堪称网络结构中的万金油。

高分辨网络HRNet

 

网络结构:

高分辨网络HRNet

论文一共提出HRNetV1 ,HRNetV2 ,HRNetV2p 共3个基本网络结构。网络整体结构包含4个stage。每一个stage都会进行各个分辨率的特征的融合和输出。其中,刚输出网络的图片,经过stride=2的3*3卷积进行1次下采样,然后每一个stage进行1次下采样。整个网络进行了5次的下采样操作。

相比deeplabV3++的基于空洞卷积的金字塔方式的特征融合,HRNet的特征融合具体下面的特点,

  1. 输出4个尺度的融合后的特征
  2. 基于deep fusion 的影响,HRNet的特征融合模块会迭代好多次。

高分辨网络HRNet

HRNetV1 :只有一个高分辨特征的输出

HRNetV2 :将低分辨特征和高分辨特征进行融合,然后输出

HRNetV2p :同时输出4个分辨率的融合特征

高分辨网络HRNet

特征融合的方式,采用上图的设计,分别通过stride=2的卷积,双线性插值,这2种方式,实现特征图的大小一致。

高分辨网络HRNet

HRNet包含了4x,8x,16x,32x共4个不同大小的结构。

 

实验结果:

关键点检测:

高分辨网络HRNet

语义分割:

高分辨网络HRNet

物体检测+实例分割:

高分辨网络HRNet

训练速度vs测试速度:

高分辨网络HRNet

 

结论:

  1. 相比其他的网络结构基于串行方式进行特征融合,HRNet基于并行方式进行低分辨和高分辨的特征融合。
  2. 网络的整个流程都进行了低分辨和高分辨的特征融合,而不是试图从低分辨恢复高分辨。
  3. 通过位置敏感的方式,重复进行融合多个尺度的特征。
  4. 分割任务中,相比PSPNet ,DeepLabv3 ,本文提出的HRNet具有更快的推理速度。
  5. 在姿态估计任务中,HRNet的训练时间会稍长。但是在MXNet 1:5:1 平台上,使用静态图进行推理,具有和SimpleBaseline 相当的速度。
  6. 将HRNet和object-contextual representation (OCR) 结合,可以获得更好的融合特征。