文件名称:Q-Learning更新公式
文件大小:9KB
文件格式:DOC
更新时间:2022-03-20 06:39:59
强化学习
强化学习的参数更新公式。Q-Learning更新公式: Qnew(st-1,at-1)=(1-α)‧Q(st-1,at-1)+α(rt+γ‧maxQ(st,a)) 其中maxQ(st,a)用于查找st 下期望回报最好的行为。α∈(0,1],γ∈[0,1],rt 是t时刻的奖赏。
文件名称:Q-Learning更新公式
文件大小:9KB
文件格式:DOC
更新时间:2022-03-20 06:39:59
强化学习
强化学习的参数更新公式。Q-Learning更新公式: Qnew(st-1,at-1)=(1-α)‧Q(st-1,at-1)+α(rt+γ‧maxQ(st,a)) 其中maxQ(st,a)用于查找st 下期望回报最好的行为。α∈(0,1],γ∈[0,1],rt 是t时刻的奖赏。