深度强化学习在自然语言处理领域的应用-遥感数字图像处理:原理与方法下载

【文件属性】：

文件名称：深度强化学习在自然语言处理领域的应用-遥感数字图像处理:原理与方法

文件大小：2.94MB

文件格式：PDF

更新时间：2024-07-21 13:50:13

人工智能; 深度学习; 强化学习; 深度强化学习;

ＭＣＴＳ，成功地击败了围棋世界冠军．此外，ＤＲＬ在机器人控制、计算机视觉、自然语言处理和医疗等领域的应用也都取得了一定的成功．１１．１　深度强化学习在机器人控制领域的应用在２Ｄ和３Ｄ的模拟环境中，基于策略梯度的ＤＲＬ方法（ＴＲＰＯ、ＧＡＥ、ＳＶＧ、Ａ３Ｃ等）实现了对机器人的行为控制．另外，在现实场景下的机器人控制任务中，ＤＲＬ也取得了若干研究成果．Ｌｅｖｉｎｅ等人［６９］利用深度ＣＮＮ来近似表示策略，并采用引导式策略搜索来指导机器人完成一些简单的操作．Ｚｈａｎｇ等人［１１４］基于内部存储的引导式策略搜索完成了一些机器人的操作和导航任务．Ｚｈａｎｇ等人［１１５］还利用ＤＱＮ技术对３个关节的机械手臂进行端对端的控制．Ｌｅｖｉｎｅ等人［１１６］使用深度神经网络模型来预测机器人的动作，并在基于手眼协调（ｈａｎｄ－ｅｙｅｃｏｏｒｄｉｎａｔｉｏｎ）的机器人抓取任务中取得了不错的效果．Ｆｉｎｎ等人［１１７］将ＤＲＬ与逆最优控制（ｉｎｖｅｒｓｅｏｐｔｉｍａｌ　ｃｏｎｔｒｏｌ）方法相结合，完成了一些现实场景下对机器人行为的操控．Ｌｅｎｚ等人［１１８］使用一种在线、实时的模型预测控制方法，完成了机器人的食品加工任务．然而在真实场景下机器人的训练数据十分缺乏，上述工作几乎都是通过一些启发式的ＤＲＬ方法来训练单个机器人，以完成相对比较简单的任务．随着并行计算能力的提升，多个机器人的协同学习逐渐成为主流．Ｇｕ等人［１１９］利用多线程技术来收集不同机器人的训练数据，通过训练不断地将网络参数传递给每个机器人，以用于下一轮的采样．这种并行采样及训练的方式，在一定程度上缓解了真实场景下缺失训练数据的问题，并在没有任何人工干涉的情况下让机器人学会了复杂的开门任务．Ｙａｈｙａ等人［１２０］提出了异步的引导式策略搜索算法（ｓｙｎｃｈｒｏｎｏｕｓｇｕｉｄｅｄ　ｐｏｌｉｃｙ　ｓｅａｒｃｈ）．该算法过程可以描述为：多个机器人在面对不同的场景时，分别利用局部策略来优化各自的行为．然后每个机器人并行地将各自的训练数据上传到服务器端，并在服务器上监督学习全局的策略网络，更好地优化各自机器人的局部策略．通过这种多Ａｇｅｎｔ协同学习的方式，大大缩短了训练的时间，并在一些真实场景下的机器人操纵任务上拥有了更好的泛化能力．得益于云计算技术的日益成熟，基于服务器端的多机器人协同学习逐渐成为一种发展趋势．随着计算能力和训练数据量的不断提升，融合了ＤＲＬ方法的智能机器人，必然会在生产和生活中扮演更加重要的角色．１１．２　深度强化学习在计算机视觉领域的应用基于视觉感知的ＤＲＬ模型可以在只输入原始图像的情况下，输出当前状态下所有可能动作的预测回报．因此可以将ＤＲＬ模型应用到基于动作条件的视频预测（ａｃｔｉｏｎ－ｃｏｎｄｉｔｉｏｎａｌ　ｖｉｄｅｏ　ｐｒｅｄｉｃｔｉｏｎ）任务中．Ｏｈ等人［２６］通过ＤＲＬ模型控制动作的输入，完成了高维度视频图像的长期预测任务．另外，Ｃａｉｃｅｄｏ等人［２７］结合使用预训练后的ＣＮＮ和ＤＱＮ模型，并通过简单的动作变换来识别候选区域中目标对象的正确位置，完成了一系列目标定位（ｏｂｊｅｃｔｌｏｃａｌｉｚａｔｉｏｎ）的任务．Ｚｈｕ等人［１２１］构造出了基于残差网络的深度孪生行动者评论家模型（ｄｅｅｐ　ｓｉａｍｅｓｅａｃｔｏｒ－ｃｒｉｔｉｃ　ｍｏｄｅｌ）．针对不同的任务，该模型可以同时接收观察图像和目标图像作为输入，并通过Ａ３Ｃ算法来训练网络参数．１１．３　深度强化学习在自然语言处理领域的应用最近，用于对话生成（ｄｉａｌｏｇｕｅ　ｇｅｎｅｒａｔｉｏｎ）的神经网络模型［１２２－１２３］取得了不错的进展，这些模型可以自动地生成应答的语句．然而这些网络模型存在明显的缺陷：它们只考虑如何根据当前语境生成下一时刻的响应，而忽略了该响应对未来对话产生的后果．因此可以利用ＤＲＬ方法来衡量对话生成中的一些指标．这种结合了ＤＲＬ的对话生成模型具有两０２计　　算　　机　　学　　报２０１８年

立即下载

秒客网

深度强化学习在自然语言处理领域的应用-遥感数字图像处理:原理与方法

网友评论

相关文章