论文:Deep High-Resolution Representation Learning for Visual Recognition
Github:https://github.com/HRNet
2020TPAMI
论文提出了一个通用型网络结构,HRNet。最大的亮点就是具有丰富的低分辨和高分辨的融合特征。在分类,检测,分割,人体姿态估计,人脸关键点检测,超分,光流估计,深度估计等诸多任务都取得了非常好的效果,堪称网络结构中的万金油。
网络结构:
论文一共提出HRNetV1 ,HRNetV2 ,HRNetV2p 共3个基本网络结构。网络整体结构包含4个stage。每一个stage都会进行各个分辨率的特征的融合和输出。其中,刚输出网络的图片,经过stride=2的3*3卷积进行1次下采样,然后每一个stage进行1次下采样。整个网络进行了5次的下采样操作。
相比deeplabV3++的基于空洞卷积的金字塔方式的特征融合,HRNet的特征融合具体下面的特点,
- 输出4个尺度的融合后的特征
- 基于deep fusion 的影响,HRNet的特征融合模块会迭代好多次。
HRNetV1 :只有一个高分辨特征的输出
HRNetV2 :将低分辨特征和高分辨特征进行融合,然后输出
HRNetV2p :同时输出4个分辨率的融合特征
特征融合的方式,采用上图的设计,分别通过stride=2的卷积,双线性插值,这2种方式,实现特征图的大小一致。
HRNet包含了4x,8x,16x,32x共4个不同大小的结构。
实验结果:
关键点检测:
语义分割:
物体检测+实例分割:
训练速度vs测试速度:
结论:
- 相比其他的网络结构基于串行方式进行特征融合,HRNet基于并行方式进行低分辨和高分辨的特征融合。
- 网络的整个流程都进行了低分辨和高分辨的特征融合,而不是试图从低分辨恢复高分辨。
- 通过位置敏感的方式,重复进行融合多个尺度的特征。
- 分割任务中,相比PSPNet ,DeepLabv3 ,本文提出的HRNet具有更快的推理速度。
- 在姿态估计任务中,HRNet的训练时间会稍长。但是在MXNet 1:5:1 平台上,使用静态图进行推理,具有和SimpleBaseline 相当的速度。
- 将HRNet和object-contextual representation (OCR) 结合,可以获得更好的融合特征。