物联网控制技术作业----信号流图---梅森公式

时间:2025-01-22 16:59:22
【强化学习】----训练Flappy Bird小游戏

qq_33925188: 这不是DQN吧?你实际只生成了一个Q值网络”model = DeepQNetwork()“,真正的DQN有两个Q值网络,应该是这样: q_net = DeepQNetwork() target_net = DeepQNetwork() q_net一直迭代更新,然后每间隔一定的时间步,将q_net的参数复制到target_net中。 本来我是想参考你是怎么设置这个时间步间隔,没找到,才发现你只有一个网络。 你在DQN算法中也提到”每C步重置Q ̂=Q“,但是在代码里找不到C步这个参数