文件名称:GAN-Q-Learning:实施GAN Q学习https
文件大小:136KB
文件格式:ZIP
更新时间:2024-06-15 11:00:05
reinforcement-learning qlearning deep-learning neural-network generative-adversarial-network
该代码实现了的“ GAN Q-Learning”算法。 纸上的修改 已发布的算法中有错字(以鉴别符丢失的形式) 当前,似乎存在一种情况,导致鉴别器(最终)在串极环境中(甚至在学习实际分布之前)完全区别于生成器。 我已经尝试过使用不同的超参数,但是绝对可以。 例如,即使我每次鉴别器更新时更新生成器10次,训练图仍然如下 最终结果 最后,由于我的计算机无法扫描足够的超参数,因此我无法复制本文给出的结果。 验证算法正确后,我发现出现了训练GAN的经典问题。 尤其是,鉴别器很容易过度拟合奖励分配,这意味着生成器被卡住,并且奖励函数无法学习。 即使进行了重大的结构修改,这些问题仍然存在。
【文件预览】:
GAN-Q-Learning-master
----cartpole_test.py(574B)
----.gitignore(60B)
----cartpole_networks.py(7KB)
----neural_network.py(4KB)
----utils.py(8KB)
----README.md(1KB)
----imgs()
--------128_graph.png(143KB)
----train_gan_q_learning.py(9KB)