多武装强盗：分析n武装强盗问题和MDP的算法下载

【文件属性】：

文件名称：多武装强盗：分析n武装强盗问题和MDP的算法

文件大小：6KB

文件格式：ZIP

更新时间：2024-03-07 08:34:48

Python

多武装盗贼分析n武装匪徒问题的算法多武装匪徒问题（UCB稍后实施）在第一部分中，我们尝试形象化了Q学习在提取最大奖励方面的完美程度，在预测中间奖励方面的成功程度以及最终对提供最大累积奖励的*的预测程度在第二部分中，我们检查了Q值如何饱和以及选择的最佳操作百分比随迭代次数如何稳定我们已经使用Bell曲线在python random.gauss（）函数中生成了随机数。因此，每台这样的Bandit或Slot机器都将具有一条特性曲线（特别是在设置了它们的均值和标准差时，其值由用户输入（通常应将其关闭，并且用户不应看到实际的值） Mu和Sigma均为每种，但出于实验目的，由用户自己设置）。 E =步长（或当前Q值选择的过去奖励的权重）； epsilon = 0-1之间的探索概率； R =初始奖励，可以更快更好地搜索奖励；运行说明后缀_exp（实验文件夹）的文件是nbandi

立即下载

【文件预览】：
Multi-Armed-Bandit-main
----core()
--------Bandit_nbandit.py(738B)
--------Main_nbandit.py(1012B)
--------Configure_nbandit.py(934B)
--------Analytics_nbandit.py(717B)
----experiment()
--------Bandit_exp.py(825B)
--------Analytics_exp.py(1KB)
--------Configure_exp.py(930B)
--------Main_exp.py(1KB)
----README.md(3KB)

秒客网

多武装强盗：分析n武装强盗问题和MDP的算法

网友评论

相关文章