文件名称:chap-深度强化学习1
文件大小:407KB
文件格式:PDF
更新时间:2022-08-04 13:38:52
k12 交互
引入一个折扣率来降低远期回报的权重。折扣回报(discounted return)定义为其中γ ∈ [0, 1]是折扣率。当γ 接近于0时,智能体更在意短期回报
文件名称:chap-深度强化学习1
文件大小:407KB
文件格式:PDF
更新时间:2022-08-04 13:38:52
k12 交互
引入一个折扣率来降低远期回报的权重。折扣回报(discounted return)定义为其中γ ∈ [0, 1]是折扣率。当γ 接近于0时,智能体更在意短期回报