文件名称:第十章_强化学习.pdf
文件大小:730KB
文件格式:PDF
更新时间:2023-08-17 07:44:49
深度学习
其他许多机器学习算法中学习器都是学得怎样做,而RL是在尝试的过程中学习到在特定的情境下选择哪种行动可以得到最大的回报。在很多场景中,当前的行动不仅会影响当前的rewards,还会影响之后的状态和一系列的rewards。RL最重要的3个特定在于: (1) 基本是以一种闭环的形式; (2) 不会直接指示选择哪种行动(actions); (3) 一系列的actions和奖励信号(reward signals)都会影响之后较长的时间。