文件名称:rl-agents:tensorflow 2.0中的RL代理集合
文件大小:39KB
文件格式:ZIP
更新时间:2024-04-11 09:48:50
JupyterNotebook
rl代理 tensorflow 2.0中的RL代理集合 有用的定义 PPO 什么该算法并在OpenAI的旋转起来的文档中描述了很好的解释:“谁的最新间接最大限度地提高性能,通过代替最大化替代的目标函数给出多少\(j(πθ)\)将改变保守估计更新的结果” 策略上的算法 每次更新仅使用根据最新版本的策略执行操作时收集的数据。 非政策算法 每次更新都可以使用培训期间任何时候记录的数据,而不考虑代理当时的环境如何。
【文件预览】:
rl-agents-master
----Vanilla Policy Gradient.ipynb(78KB)
----vpg.py(12KB)
----ppo.py(17KB)
----test.py(2KB)
----LICENSE(1KB)
----Scratch.ipynb(13KB)
----rl_agents()
--------common.py(662B)
--------training()
--------utils.py(1KB)
--------vpg()
--------__init__.py(0B)
--------ppo()
--------policies()
--------env_utils.py(4KB)
----requirements.txt(66B)
----README.org(680B)
----setup.py(152B)
----.gitignore(1KB)
----ppo.test.py(865B)
----.editorconfig(155B)