AlphaZero_Gomoku_MPI:带有Gomoku的AlphaGo零算法的异步并行方法

时间:2024-02-19 17:56:51
【文件属性】:

文件名称:AlphaZero_Gomoku_MPI:带有Gomoku的AlphaGo零算法的异步并行方法

文件大小:28.7MB

文件格式:ZIP

更新时间:2024-02-19 17:56:51

algorithm tensorflow parallel deep-reinforcement-learning mcts

AlphaZero-Gomoku-MPI 更新中 2019.03.05-上传15x15电路板 请自己下载并尝试。 如果您对AlphaZero和MCTS有任何疑问或想法,请随时发给我,也许我们可以做一些改进。 总览 此回购基于 ,由衷的感谢。 我做这些事情: 像AlphaGo Zero的方法一样,并行实现异步自学训练管道 对抗时写一个根并行MCTS(使用合奏方式投票) 使用ResNet结构来训练模型,并设置转移学习API以根据小板的模型来训练较大的板模型(例如,为了节省时间的预训练方法) 强度 当前型号位于11x11板上,测试时可播放400次 玩,无论黑与白,总是可以赢 使用进行一些粗略测试可排名 当我玩白棋时,我无法赢得AI。 当我玩黑色游戏时,大部分时间都会输掉领带/输 参考文献 博客 安装依赖 Python3(我自己的3.6.8) tensorflow> = 1.8.0(我自己的1.12.0) tensorlayer> = 1.8.5(我自己的1.10.1) mpi4py(并行训练)(我自己的2.0.0) pygame(GUI)(我自己的1.9.6) 如何安装 t


【文件预览】:
AlphaZero_Gomoku_MPI-master
----train_mpi.py(23KB)
----game_board.py(15KB)
----train.py(12KB)
----mcts_pure.py(10KB)
----model_15_15_5()
--------checkpoint(91B)
--------readme.md(172B)
--------best_policy.model.index(19KB)
--------best_policy.model.data-00000-of-00001(19.07MB)
----model_11_11_5()
--------checkpoint(91B)
--------best_policy.model.index(29KB)
--------best_policy.model.data-00000-of-00001(29.04MB)
----GUI_v1_4.py(14KB)
----policy_value_net_tensorlayer.py(15KB)
----human_play.py(3KB)
----demo()
--------network.jpg(12KB)
--------demo.gif(478KB)
--------slides()
--------algorithm.png(60KB)
----README.md(8KB)
----mcts_alphaZero.py(12KB)
----human_play_MPI.py(10KB)

网友评论