文件名称:tianshou:一个优雅的 PyTorch 深度强化学习库
文件大小:25.12MB
文件格式:ZIP
更新时间:2024-08-12 16:12:34
benchmark library pytorch dqn policy-gradient
天授()是基于纯PyTorch增强学习的平台。 与现有强化学习库以TensorFlow为主,嵌套类多、API不友好、速度慢等不同,天手提供了速度快的模块化框架和pythonic API,以最少的行数构建深度强化学习agent的代码。 目前支持的接口算法包括: 分位数回归 DQN (QRDQN) 隐式分位数网络 (IQN) 全参数化分位数函数 (FQF) 策略梯度 (PG) 自然政策梯度 (NPG) 优势演员-评论家 (A2C) 信任域策略优化 (TRPO) 近端策略优化 (PPO) 深度确定性策略梯度 (DDPG) 双延迟 DDPG (TD3) 软演员-评论家 (SAC) 离散软演员-评论家(SAC-离散) 香草模仿学习 离散批量约束的深度 Q 学习 (BCQ-Discrete) 离散保守 Q-Learning (CQL-离散) 离散批评正则化回归(CRR-离