文件名称:Reinforcement-Implementation:基准RL算法的实现
文件大小:650KB
文件格式:ZIP
更新时间:2024-05-20 16:36:11
Python
强化实施 该项目旨在在连续动作域(mujuco环境)中重现几种无模型的RL算法的结果。 这个项目 使用pytorch包 在单独的文件/最少的文件中独立实现不同的算法 用最简单的风格写的 尝试遵循原始论文并复制其结果 我的第一阶段工作是在PPO文件中重现此图。 A2C ACER(A2C +信任区域):看来此实现存在一些问题...(欢迎报告错误) CEM TRPO(TRPO单路径) PPO(PPO夹) 香草PG 在下一阶段,我要实施 DDPG 随机搜索(请参阅) SAC(批评软演员) DQN 然后是下一阶段,离散动作空间问题和原始视频输入(Atari)问题: Rainbow:DQN和相关技术(目标网络/双重Q学习/优先级体验重放/对决网络结构/分布式RL) 具有随机网络蒸馏(RND)的PPO 只有3M的Atari上的Rainbow:它可以工作,但可能需要进一步调
【文件预览】:
Reinforcement-Implementation-master
----SECURITY.md(619B)
----code()
--------dqn.py(7KB)
--------ars.py(11KB)
--------trpo.py(21KB)
--------ppo.py(13KB)
--------RND()
--------a2c.py(12KB)
--------ars_tune.py(13KB)
--------cem.py(8KB)
--------acer.py(20KB)
--------vpg.py(11KB)
--------cem_tune.py(9KB)
--------Rainbow()
----.github()
--------workflows()
----README.md(2KB)
----docs()
--------ppo_experiments.png(560KB)
--------rainbow.png(30KB)