mlprague-2021:MLPrague 2021研讨会的材料

时间:2024-03-16 20:54:25
【文件属性】:

文件名称:mlprague-2021:MLPrague 2021研讨会的材料

文件大小:1.51MB

文件格式:ZIP

更新时间:2024-03-16 20:54:25

JupyterNotebook

MLPrague 2020-如何制定数据驱动型决策:情境多臂匪徒的案例 其他名称:联想强化学习,联想土匪,带有部分反馈的学习,具有辅助信息的土匪 强化学习的要素 除了主体和环境之外,还可以识别强化学习系统的四个主要子元素:策略,奖励信号,价值函数以及(可选)环境模型。 策略-定义学习代理在给定时间的行为方式。 粗略地说,策略是从感知到的环境状态到处于这些状态时要采取的措施的映射。 它对应于心理学中所谓的一组刺激-React规则或联想。 在某些情况下,策略可能是简单的函数或查找表,而在其他情况下,策略可能涉及大量的计算,例如搜索过程。 该政策是强化学习代理的核心,就其本身而言,它足以确定行为。 通常,策略可能是随机的,为每个操作指定概率。 奖励信号-定义强化学习问题的目标。 在每个时间步骤中,环境都会向强化学习代理发送一个称为奖励的数字。 代理商的唯一目标是在长期内获得最大的总回报。 因


【文件预览】:
mlprague-2021-main
----CMAB_movielens_linear_tf.ipynb(139KB)
----MAB-banners_bayes_tf.ipynb(28KB)
----utils.py(4KB)
----MAB-banners_epsilon.ipynb(291KB)
----MAB-movielens_ucb1.ipynb(230KB)
----lin_bandit_agent.py(17KB)
----CMAB_movielens_neural_egreedy_tf.ipynb(104KB)
----MAB-banners_thompson.ipynb(478KB)
----MAB-movielens_thompson.ipynb(344KB)
----.gitignore(2KB)
----MAB-movielens_epsilon.ipynb(278KB)
----CMAB-tutorial_agents.ipynb(74KB)
----MAB-banners_bayes.ipynb(246KB)
----README.md(10KB)
----CMAB-movielens_linucb_tf.ipynb(139KB)

网友评论