基于值函数和策略梯度的深度强化学习综述

【文件属性】：

文件名称：基于值函数和策略梯度的深度强化学习综述_刘建伟.pdf

文件大小：1.35MB

文件格式：PDF

更新时间：2023-09-22 08:40:47

深度学习强化学习深度强化学习

作为人工智能领域的热门研究问题，深度强化学习自提出以来，就受到人们越来越多的关注。目前，深度强化学习能够解决很多以前难以解决的问题，比如直接从原始像素中学习如何玩视频游戏和针对机器人问题学习控制策略，深度强化学习通过不断优化控制策略，建立一个对视觉世界有更高层次理解的自治系统。其中，基于值函数和策略梯度的深度强化学习是核心的基础方法和研究重点。本文对这两类深度强化学习方法进行了系统的阐述和总结，包括用到的求解算法和网络结构。首先，概述了基于值函数的深度强化学习方法，包括开山鼻祖深度Q 网络和基于深度Q 网络的各种改进方法。然后介绍了策略梯度的概念和常见算法，并概述了深度确定性策略梯度

立即下载

秒客网

基于值函数和策略梯度的深度强化学习综述_刘建伟.pdf

网友评论

相关文章