TD3:作者的TD3的PyTorch实施,用于OpenAI体育馆任务

时间:2024-05-21 06:11:44
【文件属性】:

文件名称:TD3:作者的TD3的PyTorch实施,用于OpenAI体育馆任务

文件大小:121KB

文件格式:ZIP

更新时间:2024-05-21 06:11:44

Python

Actor-Critic方法中的地址函数逼近误差 双延迟深度确定性策略梯度(TD3)的PyTorch实现。 如果您使用我们的代码或数据,请引用。 在连续控制任务上进行了测试。 使用和Python 3.7训练网络。 用法 可以通过运行以下操作来重现论文结果: ./experiments.sh 可以通过调用以下命令来运行单个环境的实验: python main.py --env HalfCheetah-v2 可以使用main.py的不同参数修改超参数。 我们包括了DDPG(DDPG.py)的实现,本文不使用该实现,以便于将超参数与TD3轻松进行比较。 这不是本文中使用的“ Our DDPG”的实现(请参阅OurDDPG.py)。 可以在找到TD3与之比较的算法(PPO,TRPO,ACKTR,DDPG)。 结果 代码不再完全代表本文中使用的代码。 对超参数等进行细微调整,以提高性能。 学


【文件预览】:
TD3-master
----DDPG.py(4KB)
----learning_curves()
--------Ant()
--------Hopper()
--------InvertedPendulum()
--------Reacher()
--------InvertedDoublePendulum()
--------HalfCheetah()
--------Walker()
----LICENSE(1KB)
----TD3.py(5KB)
----utils.py(1KB)
----README.md(2KB)
----run_experiments.sh(737B)
----main.py(5KB)
----OurDDPG.py(4KB)

网友评论