文件名称:模仿学习限制螺栓
文件大小:160.69MB
文件格式:ZIP
更新时间:2024-03-07 00:43:30
JupyterNotebook
带有约束螺栓的异物仿制学习 额外的学习案例 在强化学习中,发现建模精确的奖励函数(导致代理商的期望行为)具有挑战性是一个常见的问题。 逆向强化学习旨在从专家代理提供的一组动作和观察中提取奖励功能,这可以是另一种训练有素的模型,基于模型的方法甚至是人类。 模仿学习是学习者从专家的行为中尝试的技术。 在该存储库中,探索了“约束螺栓”方法,该方法在一文中有详细描述 (De Giacomo等,2020年)。 环境:突围 特征 目标:卸下所有砖柱。 至少有1行3列砖 专家在左边。 用火作为摧毁砖块的行动。 学习者在右边。 使用弹跳球摧毁砖块。 在顶部添加一个额外的桨来响应击球。 设置 在Ubuntu 18.04中测试。 搭建环境 设置虚拟环境,并安装其他依赖项。 该存储库包括一个基本的准备好的环境,可以通过pipenv访问该环境,我们鼓励使用该环境来处理这些库。 克隆此存储库: git c