文件名称:gym-bandit-environments:OpenAI Gym的多臂土匪环境
文件大小:9KB
文件格式:ZIP
更新时间:2024-06-05 17:00:24
Python
土匪环境 适用于OpenAI Gym的一系列n型武装土匪环境 该代码受Jesse Cooper的工作启发: : 此存储库中添加的环境基于Wang等。 论文“学习到强化学习”中描述的所有实验。 笔记 每个环境使用不同的一组: 概率分布-特定匪徒将支付的可能性的概率列表 奖励分配-匪徒获得的报酬(如果有数量)或均值和标准差(如果有列表)的列表 例如,BanditTwoArmedHighLowFixed-v0具有p_dist=[0.8, 0.2] , r_dist=[1, 1] ,这意味着选择动作0的时间的80%将支付1,选择动作2的时间的20%将支付1个 如果要将权重与真实值进行匹配以绘制各种算法的结果,则可以使用env.p_dist或env.r_dist通过p_dist和r_dist变量访问分布。 为了适合Universe-starter-agent,对强盗的观察已从0(类型:g
【文件预览】:
gym-bandit-environments-master
----gym_bandits.egg-info()
--------PKG-INFO(281B)
--------requires.txt(11B)
--------SOURCES.txt(173B)
--------top_level.txt(1B)
--------dependency_links.txt(1B)
----LICENSE(1KB)
----setup.py(346B)
----gym_bandits()
--------scoreboard.py(10KB)
--------__init__.py(2KB)
--------bandit.py(7KB)
----README.md(3KB)