文件名称:深度强化学习在自然语言处理领域的应用-遥感数字图像处理:原理与方法
文件大小:2.94MB
文件格式:PDF
更新时间:2024-07-21 13:50:13
人工智能; 深度学习; 强化学习; 深度强化学习;
MCTS,成功地击败了围棋世界冠军.此外,DRL在 机器人控制、计算机视觉、自然语言处理和医疗等领 域的应用也都取得了一定的成功. 11.1 深度强化学习在机器人控制领域的应用 在2D和3D的 模 拟 环 境 中,基 于 策 略 梯 度 的 DRL方法(TRPO、GAE、SVG、A3C等)实现了对机 器人的行为控制.另外,在现实场景下的机器人控制 任务 中,DRL也 取 得 了 若 干 研 究 成 果.Levine等 人[69]利用深度CNN来近似 表 示 策 略,并 采 用 引 导 式策略 搜 索 来 指 导 机 器 人 完 成 一 些 简 单 的 操 作. Zhang等人 [114]基于内部存 储 的 引 导 式 策 略 搜 索 完 成了一些机器人的操作和导航任务.Zhang等人 [115] 还利用DQN技术对3个关节的机械手臂进行端对 端的控制.Levine等 人[116]使 用 深 度 神 经 网 络 模 型 来预测机器人的动作,并在基于手眼协调(hand-eye coordination)的 机 器 人 抓 取 任 务 中 取 得 了 不 错 的 效果.Finn等人[117]将DRL与 逆 最 优 控 制(inverse optimal control)方法相结合,完成了一些现实场景 下对机器人 行 为 的 操 控.Lenz等 人[118]使 用 一 种 在 线、实时的模型预测控制方法,完成了机器人的食品 加工任务. 然 而 在 真 实 场 景 下 机 器 人 的 训 练 数 据 十 分 缺 乏,上述工作几乎都是通过一些启发式的DRL方法 来训练单个机器人,以完成相对比较简单的任务.随 着并行计算能力的提升,多个机器人的协同学习逐 渐成为主流.Gu等人[119]利用多线程技术来收集不 同机器人的训练数据,通过训练不断地将网络参数传 递给每个机器人,以用于下一轮的采样.这种并行采 样及训练的方式,在一定程度上缓解了真实场景下缺 失训练数据的问题,并在没有任何人工干涉的情 况 下让机器人学会了复杂的开门任务.Yahya等人 [120] 提出了 异 步 的 引 导 式 策 略 搜 索 算 法(synchronous guided policy search).该 算 法 过 程 可 以 描 述 为:多 个机器人在面对不同的场景时,分别利用局部策略 来优化各自的行为.然后每个机器人并行地将各自 的训练数据上传到服务器端,并在服务器上监督学 习全局的策略网络,更好地优化各自机器人的局部 策略.通过这 种 多 Agent协 同 学 习 的 方 式,大 大 缩 短了训练的时间,并在一些真实场景下的机器人操 纵任务上拥有了更好的泛化能力.得益于云计算技 术的日益成熟,基于服务器端的多机器人协同学习 逐渐成为一种发展趋势.随着计算能力和训练数据 量的不断提升,融合了 DRL方法的智能机器人,必 然会在生产和生活中扮演更加重要的角色. 11.2 深度强化学习在计算机视觉领域的应用 基于视觉感知的DRL模型可以在只输入原始 图像的情况下,输出当前状态下所有可能动作的预 测回报.因此可以将DRL模型应用到基于动作条件 的视频预测(action-conditional video prediction)任 务中.Oh等人[26]通 过DRL模 型 控 制 动 作 的 输 入, 完 成 了 高 维 度 视 频 图 像 的 长 期 预 测 任 务.另 外, Caicedo等人[27]结合使用预训练后的CNN和DQN 模型,并通过简单的动作变换来识别候选区域中目 标对象的正确位置,完成了一系列目标定位(object localization)的任 务.Zhu等 人[121]构 造 出 了 基 于 残 差网络的深度孪生行动者评论家模型(deep siamese actor-critic model).针对不同的任务,该模型可以同 时接收观察图像和目标图像作为输入,并通过A3C 算法来训练网络参数. 11.3 深度强化学习在自然语言处理领域的应用 最近,用于对话生成(dialogue generation)的神 经网络模型[122-123]取 得 了 不 错 的 进 展,这 些 模 型 可 以自动地生成应答的语句.然而这些网络模型存在 明显的缺陷:它们只考虑如何根据当前语境生成下 一时刻的响应,而忽略了该响应对未来对话产生的 后果.因此可以利用DRL方法来衡量对话生成中的 一些指标.这种结合了DRL的对话生成模型具有两 02 计 算 机 学 报 2018年