文件名称:reinforcement-learning:来自dennybritz强化学习的分叉
文件大小:178.96MB
文件格式:ZIP
更新时间:2024-06-04 15:05:23
Python
概述 该存储库为流行的强化学习算法提供了代码,练习和解决方案。 这些旨在作为一种学习工具来补充来自 中的每个文件夹对应于上述教科书和/或课程的一个或多个章节。 除了练习和解决方案,每个文件夹还包含学习目标列表,简要概念摘要以及指向相关阅读材料的链接。 所有代码均使用Python 3编写,并使用RL环境。 先进的技术将用于神经网络实现。 目录 (WIP) (WIP) 学习与计划(WIP) 勘探与开发(WIP) 实施算法清单 动态编程策略迭代 动态编程值迭代 蒙特卡洛预测 带有Epsilon-Greedy策略的蒙特卡洛控制 带有重要采样的蒙特卡洛非政策控制 SARSA(关于政策TD学习) Q学习(政策TD学习) 线性函数逼近的Q学习 雅达利游戏的深度Q学习 Atari游戏的双重Deep-Q学习 具有优先级体验重播(WIP)的深度Q学习 政策梯度:以基线为基础的REINFORCE