带有MADDPG的网球：在Pytorch上实现MADDPG下载

【文件属性】：

文件名称：带有MADDPG的网球：在Pytorch上实现MADDPG

文件大小：45.93MB

文件格式：ZIP

更新时间：2024-03-06 14:38:51

reinforcement-learning robotics tennis agents maddpg

项目3：合作与竞争介绍在这种环境下，两名特工控制球拍在球网上弹跳球。如果探员将球击中网，则得到+0.1的奖励。如果探员让一个球击中地面或越界将球击中，则其收益为-0.01。因此，每个特工的目标是保持比赛中的球权。观察空间由8个变量组成，分别对应于球和球拍的位置和速度。每个代理都会收到自己的本地观察结果。有两个连续的动作可用，分别对应于朝向（或远离）网络的运动和跳跃。下图显示了最终的奖励进度。环境在1820集中得到解决算法：为了解决此环境，我实现了Multi-DDPG算法。实现的功能如下：每个特工都有独立的演员和评论家集中培训：每个代理的批评者不仅将自己的演员的行为和状态作为输入，而且还将所有其他代理的状态和行为作为输入。由于在测试过程中仅使用参与者，并且参与者仅取决于相应参与者的状态，因此代理可以*地学习自己的奖励结构。下图[来源：：

立即下载

秒客网

带有MADDPG的网球：在Pytorch上实现MADDPG

网友评论

相关文章