UCT和RAVE结合-云原生安全技术预研报告

时间:2024-06-28 06:35:23
【文件属性】:

文件名称:UCT和RAVE结合-云原生安全技术预研报告

文件大小:2.45MB

文件格式:PDF

更新时间:2024-06-28 06:35:23

不围棋 UCT

1.2 RAVE介绍 RAVE (rapid action value estimation)[11]是基于值 (value- based)函数的强化学习思想在UCT方法中的应用。RAVE收 集并评价UCT搜索中产生的状态动作对,并在下一次UCT搜 索时加以引导,使UCT能够更多的搜索更好的分支。 强化学习是一种无监督的机器学习方法,它被称之为 “和批评者一起学习”。批评者 (critic)并不反馈应该做什 么,而仅仅反馈之前所做的怎么样[12]。最典型的强化学习 算法是 Q 学习算法,可以看作是马尔可夫决策 过 程 (Markov decision processes)的一种变化形式。 马尔可夫决策过程是强化学习的数学模型,它是由四 元组组成:<S,A,R,T>,其中S是离散的状态集,A 是离散的动作集,R:S×A→R是奖励函数,T:S×A→ PD (S)是状态转移函数,PD (S)是状态集S上的概率 分布函数。 典型的基于折扣报酬的强化学习问题通常可以描述为给 定<S,A,R,T>,寻找策略π使得期望折扣报酬总和最大 π(s)=argmax π Vπ(s) 式中:Vπ (s)———折算累积回报,上式可以改写为 π(s)=argmax π [r(s,a)+γVπ(δ(s,a))] 式中:r (s,a)———s状态下执行a所得的报酬值,γ是折 扣因子。 定义Q (s,a)为从状态s开始并使用a作为第一个动 作时的最大折算累积回报,换言之,Q的值为从状态s执 行动作a的立即回报加上以后遵循最优策略的值 Q(s,a)=r(s,a)+γVπ(δ(s,a)) 则 π(s)=argmax π Q(s,a) 动态规划理论保证至少存在一个策略π* 使得对任意 s∈S有 π*(s)=argmax π Q(s,a) 值函数 Q (s,a)的估计有很多种算法,比如 TD (λ)[13]。如果环境模型是已知的或是可学习的,那么基于值 函数的强化学习算法可用于基于样本的搜索。可从模型中 抽样来获得模拟场景,通过模拟经验来更新值函数。 RAVE是基于值函数Q (s,a)的强化学习方法,通过 基于样本的搜索树来动态更新值函数。为了与 UCT相结 合,RAVE的收益公式定义为 QRAVE(s,a)=QRAVE(s,a)+c logm(s) m(s,a槡 ) 式中:m (s,a)———s状态下a 动作被选择的次数,m (s)———s状态被访问的次数。 1.3 UCT和RAVE结合 UCT需要对每个s∈S状态下可供选择的动作进行抽 样,以便比较各分支的收益情况并做出路径选择。如果动 作空间巨大,可供选择的分支数就很多,要用足够多的模 拟次数来区分分支的好坏[14-15],而巨大的模拟次数将影响 算法的性能。为减少模拟次数,UCT中加入在线学习知识 RAVE,将RAVE值作为分支选择的另一参考,以提高分 支选择的准确性。引入线性因子β (s,a)把QUCT和QRAVE 线性组合到一起 β(s,a)= k 3n(s)+槡 k ·7311·


网友评论