高分辨网络HRNet

时间：2024-04-12 09:12:14

论文：Deep High-Resolution Representation Learning for Visual Recognition

Github：https://github.com/HRNet

2020TPAMI

论文提出了一个通用型网络结构，HRNet。最大的亮点就是具有丰富的低分辨和高分辨的融合特征。在分类，检测，分割，人体姿态估计，人脸关键点检测，超分，光流估计，深度估计等诸多任务都取得了非常好的效果，堪称网络结构中的万金油。

高分辨网络HRNet

网络结构：

高分辨网络HRNet

论文一共提出HRNetV1 ，HRNetV2 ，HRNetV2p 共3个基本网络结构。网络整体结构包含4个stage。每一个stage都会进行各个分辨率的特征的融合和输出。其中，刚输出网络的图片，经过stride=2的3*3卷积进行1次下采样，然后每一个stage进行1次下采样。整个网络进行了5次的下采样操作。

相比deeplabV3++的基于空洞卷积的金字塔方式的特征融合，HRNet的特征融合具体下面的特点，

输出4个尺度的融合后的特征
基于deep fusion 的影响，HRNet的特征融合模块会迭代好多次。

高分辨网络HRNet

HRNetV1 ：只有一个高分辨特征的输出

HRNetV2 ：将低分辨特征和高分辨特征进行融合，然后输出

HRNetV2p ：同时输出4个分辨率的融合特征

高分辨网络HRNet

特征融合的方式，采用上图的设计，分别通过stride=2的卷积，双线性插值，这2种方式，实现特征图的大小一致。

高分辨网络HRNet

HRNet包含了4x，8x，16x，32x共4个不同大小的结构。

实验结果：

关键点检测：

高分辨网络HRNet

语义分割：

物体检测+实例分割：

高分辨网络HRNet

训练速度vs测试速度：

结论：

相比其他的网络结构基于串行方式进行特征融合，HRNet基于并行方式进行低分辨和高分辨的特征融合。
网络的整个流程都进行了低分辨和高分辨的特征融合，而不是试图从低分辨恢复高分辨。
通过位置敏感的方式，重复进行融合多个尺度的特征。
分割任务中，相比PSPNet ，DeepLabv3 ，本文提出的HRNet具有更快的推理速度。
在姿态估计任务中，HRNet的训练时间会稍长。但是在MXNet 1:5:1 平台上，使用静态图进行推理，具有和SimpleBaseline 相当的速度。
将HRNet和object-contextual representation (OCR) 结合，可以获得更好的融合特征。

相关文章

