文件名称:多武装强盗:分析n武装强盗问题和MDP的算法
文件大小:6KB
文件格式:ZIP
更新时间:2024-03-07 08:34:48
Python
多武装盗贼 分析n武装匪徒问题的算法 多武装匪徒问题(UCB稍后实施) 在第一部分中,我们尝试形象化了Q学习在提取最大奖励方面的完美程度,在预测中间奖励方面的成功程度以及最终对提供最大累积奖励的*的预测程度 在第二部分中,我们检查了Q值如何饱和以及选择的最佳操作百分比随迭代次数如何稳定 我们已经使用Bell曲线在python random.gauss()函数中生成了随机数。 因此,每台这样的Bandit或Slot机器都将具有一条特性曲线(特别是在设置了它们的均值和标准差时,其值由用户输入(通常应将其关闭,并且用户不应看到实际的值) Mu和Sigma均为每种,但出于实验目的,由用户自己设置)。 E =步长(或当前Q值选择的过去奖励的权重); epsilon = 0-1之间的探索概率; R =初始奖励,可以更快更好地搜索奖励; 运行说明 后缀_exp(实验文件夹)的文件是nbandi
【文件预览】:
Multi-Armed-Bandit-main
----core()
--------Bandit_nbandit.py(738B)
--------Main_nbandit.py(1012B)
--------Configure_nbandit.py(934B)
--------Analytics_nbandit.py(717B)
----experiment()
--------Bandit_exp.py(825B)
--------Analytics_exp.py(1KB)
--------Configure_exp.py(930B)
--------Main_exp.py(1KB)
----README.md(3KB)