MODNet: Moving Object Detection Network with Motion and Appearance for Autonomous Driving
这里讲视频动作识别中的 two stream networks 框架应用于无人驾驶中的目标检测,视频分析中的 motion and appearance cues
本文的 contributions 主要以下三点:
1)提出了一个新颖的多任务学习系统用于无人驾驶,它可以融合 motion and appearance cues
2)这个系统同时检测车辆和运动分割
3)我们提出了一个方法,可以将 KITTI dataset 转出本系统需要的训练数据,我们称得到的数据库为 KITTI MOD
下面首先来看看 KITTI MOD Dataset 的生成
对于车辆我们主要利用了 odometry information and annotated 3D bounding boxes ,odometry information 可以帮助我们将相机的速度得到。从 3D bounding boxes 我们可以得到 2D bounding boxes,根据 3D centroids 我们可以估算出车辆的速度,根据这个速度结合相机的速度,我们可以判断出车辆是否运动。我们可以将运动车辆区分出来。
MODNet Two Stream Multi-Task Learning Architecture
采用 VGG16 网络,输入 RGB图像和 光流场
A detector similar to the detection decoder in [26] denoted as FastBox is used. It is based on Yolo[22] as a single shot detector utilizing the first 15 convolutional layers from VGG16
损失函数定义如下
Experiment