文件名称:learning-from-human-preferences:复制了OpenAI和DeepMind的“从人类偏好中进行深度强化学习”
文件大小:148.12MB
文件格式:ZIP
更新时间:2024-05-22 13:14:50
Python
通过人类偏好进行深度强化学习 基于上的论文,复制了OpenAI和DeepMind的根据的 。 结果 复制的主要里程碑是: 训练代理商使用合成的首选项,在中将圆点移到中间。 使用综合偏好训练特工打乒乓球。 根据个人喜好,对代理商进行培训,使其与Enduro的其他汽车并驾齐驱。 用法 克隆 请注意,存储库中的某些文件是使用。 如果要使用存储的任何数据(检查点,首选项),请在克隆之前安装Git LFS。 Python设置 要设置隔离环境并安装依赖项,请安装 ,然后运行: $ pipenv install 但是,请注意,必须手动安装TensorFlow。 任何一个: $ pipenv run pip install tensorflow 或者 $ pipenv run pip install tensorflow-gpu 取决于您是否有GPU。 (如果遇到问题,请尝试安装用于开发的