X-armed-Bandits:X武装土匪算法的实现,如Bubeck等人在2011年的“ X武装土匪”论文中所详述

时间:2024-05-21 18:36:11
【文件属性】:

文件名称:X-armed-Bandits:X武装土匪算法的实现,如Bubeck等人在2011年的“ X武装土匪”论文中所详述

文件大小:221KB

文件格式:ZIP

更新时间:2024-05-21 18:36:11

reinforcement-learning machine-learning-algorithms reinforcement-learning-algorithms multi-armed-bandits multi-armed-bandit

X武装强盗 介绍 我们考虑随机土匪的一般化,其中将一组武器X设为通用的可测量空间,相对于决策者已知的相异性函数,均值收益函数为“局部Lipschitz”。 在这种情况下,我们构造了一种称为HOO(分层乐观优化)的手臂选择策略,与以往针对大量问题的结果相比,后悔范围有所改善。 特别地,我们的结果暗示,如果X是欧几里得空间中的单位超立方体,并且均值支付函数具有有限个全局最大值,则该函数的行为在已知平滑度下在局部连续,那么预期的后悔HOO的上限由对数因子√n约束,也就是说,后悔的增长率与空间的大小无关。¹ HOO策略以增量方式建立对X的均值收益函数f的估计。核心思想是精确估计f的最大值附近的f,同时在空间X的其他部分粗略地估计f。为实现这一思想,HOO维护了一个二元模型它的节点与手臂空间X的可测量区域相关联的树,使得与树中更深的节点相关联的区域代表X的越来越小的子集。该树以增量方式构建。 在树


【文件预览】:
X-armed-Bandits-master
----TestEnvironment()
--------TestFunctions.py(4KB)
--------SimpleTest.py(3KB)
----BanditAlgorithm()
--------HOO.py(7KB)
--------TreeNode.py(421B)
--------Partitioner.py(4KB)
----Figures()
--------hoo_tree.jpg(46KB)
--------hyper_ellipsoid.png(50KB)
--------hyper_ellipsoid.jpg(30KB)
--------sixhumpcamelback.png(44KB)
--------six_hump.jpg(29KB)
--------camel6.png(28KB)
----LICENSE(1KB)
----README.md(6KB)

网友评论