文件名称:handful-of-trials-pytorch:非官方的Pytorch代码,“使用概率动力学模型进行的几次尝试中的深度强化学习”
文件大小:93KB
文件格式:ZIP
更新时间:2024-06-03 06:34:49
reinforcement-learning ensemble-learning probabilistic-models model-based-rl model-based-reinforcement-learning
此存储库包含在基于几次尝试中的提出的基于模型的出色强化学习算法的pytorch实现。 到目前为止,该存储库仅支持性能最高的变体:用于学习的动力学模型的概率集合,用于运动优化的TSinf轨迹采样和交叉熵方法。 该代码的结构具有与原始TF实现相同的抽象级别,但TF动态模型已被Pytorch动力学模型代替。 如果您看到改进回购协议的方法,我很乐意接受拉取请求:)。 表现 y轴表示到目前为止所看到的最大奖励,就像本文中所做的那样。 在代码中指定的种子上,我无法获得与HalfCheetah上的论文相同的结果。 我已经梳理了代码,但是找不到任何潜在的错误。 我怀疑性能较低是因为HC在目标函数表面具有欺骗性模式,因此性能差异很大。 为了获得1万5千集的回报,HC必须靠腿走路。 但是,另一种方式是HC翻转其背部并摆动其腿部。 对于某些初始种子,甚至SAC都停留在此模式下。 我没有时间进一