文件名称:31、策略梯度31
文件大小:721KB
文件格式:PDF
更新时间:2022-08-03 21:11:30
算法
2、Vanilla Policy Gradient算法 3、使用Critic降低方差 4、Actor-Critc函数近似 5、使用Baseline降低AC的方差
文件名称:31、策略梯度31
文件大小:721KB
文件格式:PDF
更新时间:2022-08-03 21:11:30
算法
2、Vanilla Policy Gradient算法 3、使用Critic降低方差 4、Actor-Critc函数近似 5、使用Baseline降低AC的方差