Deep Reinforcement Learning for Unsupervised Video Summarization with Diversity-Representativeness R

时间:2021-10-28 09:28:12

Abstract

视频摘要旨在通过制作短而简洁的摘要来促进大规模浏览视频,这些摘要是多种多样的,并且代表了原始视频。在本文中,我们规定视频摘要作为一个顺序决策过程,并开发一个深度摘要网络(DSN)来总结视频。DSN为每个视频帧预测概率,该概率表示帧被选择的可能性,然后基于概率分布来选择帧,从而形成视频摘要。为了训练我们的DSN,我们提出了一个端到端的,基于强化学习的框架,在这个框架中,我们设计了一个新颖的奖励函数,共同解释生成的摘要的多样性和代表性,并且不依赖标签或用户交互。在训练期间,奖励功能函数评定怎样展示所生成的摘要的多样性和代表性,而DSN通过学习产生更多样化和更具代表性的摘要,努力获得更高的回报。由于标签不是必需的,我们的方法可以完全不受监督。 对两个基准数据集进行的大量实验表明,我们的无监督方法不仅胜过了其他最先进的无监督方法,而且与大多数已发布的监督方法相比甚至更胜一筹。

Introduction

在近年来在线视频数量呈指数级增长的推动下,视频摘要研究日益受到关注,因此提出了各种方法来促进大规模视频浏览 (Gygli et al.2014; Gygli, Grabner, and Van Gool 2015; Zhang et al.2016a; Song et al. 2015; Panda and Roy-Chowdhury 2017;Mahasseni, Lam, and Todorovic 2017; Potapov et al. 2014).

   最近,循环神经网络(RNN),特别是与长期短期记忆单元(LSTM)(Hochre-iterSchmidhuber1997)一起,已经被用来模拟视频帧中的序列模式,并解决端到端的训练问题。Zhang等人 (Zhang et al2016b)提出了一种深层架构,该架构将双向LSTM网络与决策点过程(DPP)模块相结合,增加了摘要的多样性,称为DPP-LSTM。他们使用监督式学习训练DPP-LSTM,同时使用视频级摘要和帧级重要性分数。在测试时间,DPP-LSTM同时预测重要性分数并输出特征向量,它们一起用于构建DPP矩阵。 由于DPP建模,DPP-LSTM需要以两阶段的方式进行训练。

  虽然DPP-LSTMZhang et al2016b)已经在多个基准测试中显示了最新的表现,但我们认为监督式学习不能充分发掘深度网络对于视频摘要的潜力,因为它不存在单一的ground truth视频摘要。这是基于这样一个事实,即人类对视频的哪些部分应该作为摘要进行选择具有主观意见。 因此,依靠较少的标签,设计更加有效的总结方法仍然是需求。

  Mahasseni等人 (MahasseniLamTodorovic 2017)开发了一种对抗性学习框架来训练DPP-LSTM。 在学习过程中,DPP-LSTM选择关键帧并使用判别器网络来判断由关键帧构建的合成视频是否真实,以便强制DPP-LSTM选择更具代表性的帧。

   虽然他们的框架是无监督的,但对抗性使得训练不稳定,这可能导致模型崩溃。 就增加多样性而言,如果没有标签的帮助,DPP LSTM不能最大限度地从DPP模块中获益。 由于用于视频重建的DPP-LSTM之后的基于RNN的编码器 - 解码器网络需要预训练,因此其框架需要多个训练阶段,这在实践中效率不高。

   在本文中,我们制定视频摘要作为一个顺序决策过程,并开发一个深度摘要网络(DSN)来总结视频。