文件名称:DREAM:DREAM的可扩展实现-适用于多智能体不完善信息游戏的Deep RL
文件大小:324KB
文件格式:ZIP
更新时间:2024-05-14 05:36:55
Python
DREAM:借助Advantage基准和无模型学习来最大限度地减少后悔。 [1]的可扩展实现。 DREAM是无多代理模型的Deep RL的最新技术(2020年6月)[1]。 这是两个图表,显示了各种无模型算法在扑克游戏Flop Hold'em Poker(FHP)和Leduc中的融合速度如何: 还包括在框架中的 [2], [3]和 [4]的。 该代码库设计用于: 研究人员将新方法与这些基准进行比较。 任何想在不完善的信息游戏中了解Deep RL的人。 我们论文结果的可重复性。 此实现可从本地计算机无缝扩展到AWS上的数百个内核。 从DREAM复制结果(Steinberger等人,2020)[1] 该仓库根目录中的run-script每次启动实验均与本文中介绍的实验相同。 我们在Leduc中进行了实验,在c5.9xlarge机器上每次运行使用一个内核(即在一台机器上并行进