文件名称:tetris_mcts:俄罗斯方块的MCTS项目
文件大小:9.56MB
文件格式:ZIP
更新时间:2024-05-24 12:20:01
game reinforcement-learning deep-learning tetris mcts
通过蒙特卡洛树搜索和时差学习来学习玩俄罗斯方块 我对俄罗斯方块的爱的个人项目。 (警告:代码是一团乱麻,杂乱的样式和不清晰的命名,请您自担风险。) (警告2:我最近一直在尝试很多事情,因此某些功能可能无法正常工作。如果您打算重现我以前的结果,请确保检查一下我以前的提交。) 介绍 这个项目的开始是将Deep Q-Learning应用到我一直以来最喜欢的益智游戏之一“俄罗斯方块”的实践。 但是,我很快意识到,培训训练座席以接近人类水平的地方几乎是不可能的,这可能是由于俄罗斯方块中奖励的稀疏性和长期依赖性(想象一下,您需要执行多少动作才能清除一条线! )。 也是在那个时候,AlphaGo以一种支配性的方式击败了Lee Sedol,重新点燃了我希望成为更好的经纪人的希望。 另外,我认为与无模型方法(Q学习,策略梯度等)相比,基于模型的方法应有显着改进。 就是这样,受AlphaGo启发的MCTS
【文件预览】:
tetris_mcts-master
----results()
--------dqn()
--------score.png(18KB)
--------benchmark.png(25KB)
--------v2()
--------online-200sims()
----requirements.txt(256B)
----model()
--------model_distributional.py(3KB)
--------yogi.py(3KB)
--------model_vv.py(8KB)
--------bbb.py(5KB)
--------model_bayesian.py(11KB)
--------nsgd.py(1KB)
--------model_vp.py(3KB)
--------bgd_optimizer.py(5KB)
--------sngd.py(754B)
--------radam.py(10KB)
--------model.py(8KB)
----play.py(6KB)
----util()
--------gui_sdl2.py(1KB)
--------Data.py(7KB)
--------gui.py(1KB)
----tools()
--------plot_dump.py(2KB)
--------print_dump_grad.py(658B)
--------plot_score.py(1KB)
--------plot_loss.py(289B)
--------test.py(2KB)
--------plot_response.py(5KB)
--------test_dist.py(2KB)
--------capture.py(1KB)
--------train_dump.py(476B)
--------inference_speed.py(214B)
--------plot_entropy.py(970B)
--------replay.py(7KB)
----README.md(6KB)
----demo()
--------test.gif(336KB)
----web()
--------web_dash.py(13KB)
--------assets()
--------parseLog.py(7KB)
--------web.py(10KB)
----agents()
--------FullSim.py(1KB)
--------ValueSim2.py(2KB)
--------agent_mcts.py(4KB)
--------core_distributional.py(3KB)
--------HybridSim.py(2KB)
--------Random.py(231B)
--------cppmodule()
--------special.py(2KB)
--------core_projection.py(6KB)
--------Vanilla.py(2KB)
--------ValueSimLP.py(2KB)
--------helper.py(97B)
--------agent.py(9KB)
--------FiniteSim.py(1KB)
--------DistValueSimOnline.py(5KB)
--------VanillaC.py(488B)
--------ValueSim.py(6KB)
--------ValueSimOnline.py(7KB)
--------ValueSimC.py(2KB)
--------ApproxPolicyIter.py(8KB)
--------ValueSimBayes.py(2KB)
--------core.py(13KB)
--------DQN.py(8KB)
--------policy.py(1KB)
----tmp()
--------test.py(971B)
--------default.sh(99B)
--------model_10k(2.19MB)
----cycle.sh(2KB)
----train.py(11KB)