文件名称:767最终IR
文件大小:107KB
文件格式:ZIP
更新时间:2024-03-10 22:34:23
Python
767最终IR COMP 767最终项目 Alex Hoffman和Nikhil Podila 麦吉尔大学 我们从创建了重要性重采样算法的Python实现 我们还尝试了在重采样算法中添加优先体验重播 该代码需要以下软件包:numpy,gym,tensorflow,matplotlib。 如果使用anaconda,则可以通过pip install或conda install进行安装。 运行文件“ OffPolicyAgent_testing.py”将生成图,具体取决于在文件底部注释掉的函数。 超参数在文件正文中设置。 在测试功能中设置实验设置(LR扫描的学习率,更新次数,每次更新的步骤,批量大小)。 如果您在浏览代码时遇到问题,请随时提出问题!
【文件预览】:
767-final-IR-master
----OffPolicyAgent.py(6KB)
----.3std_lrncurve_4rooms.csv(391KB)
----random_walk_env.py(1KB)
----DP_walk.py(736B)
----OffPolicyAgent_FourRooms.py(3KB)
----prioritized_memory.py(1KB)
----IRAgent_FourRooms.py(4KB)
----four_rooms_env.py(2KB)
----WISMinibatchAgent_FourRooms.py(1KB)
----IRAgent.py(4KB)
----SumTree.py(2KB)
----PER_testing.py(9KB)
----PERAgent.py(5KB)
----WISBufferAgent_FourRooms.py(1KB)
----WISAgent.py(1KB)
----OffPolicyAgent_testing.py(10KB)
----.3mean_lrncurve_4rooms.csv(391KB)
----IS_testing_working_april15.py(1KB)
----README.md(918B)
----OffPolicyAgent_FourRooms_testing.py(3KB)
----TransitionData.py(327B)