pytorch-sac:PyTorch中的软演员评论(SAC):rocket:

时间:2024-05-09 14:52:18
【文件属性】:

文件名称:pytorch-sac:PyTorch中的软演员评论(SAC):rocket:

文件大小:4KB

文件格式:ZIP

更新时间:2024-05-09 14:52:18

deep-reinforcement-learning pytorch soft-actor-critic Python

评论家 SAC算法 TODO:算法screenshto和链接旋转起来 如何计算 适当地? 在这个术语中,最初使我感到困惑的是,动作和动作的对数概率都取决于参数theta。 这样可以启用适当的反向传播吗? 本小节有助于更好地理解这个问题。 从本文中我们知道 在哪里 是通过策略网络输出的均值和标准偏差参数化的对角正态分布(其尺寸取决于操作的暗淡)。 因此,在计算 关于 ,我们正在计算相对于两个项的梯度并将其相加。 import torch from torch . distributions import Normal , Independent means = torch . tensor ([[ 1 , 2 , 3 , 4 , 5 ], [ 1 , 2 , 3 , 4 , 5 ]], dtype = torch . float ). view ( 2 , - 1 ) # two


【文件预览】:
pytorch-sac-main
----test_doubly_dependency.py(848B)
----LICENSE(1KB)
----README.md(2KB)
----.gitignore(2KB)

网友评论