关于Q-LEARNING的优化

时间：2021-01-10 04:29:01

Q-LEARNING 最后得到的一个图寻路最佳路径；---直接转化为图关于多顶点深度遍历热度传递

V_(level+1) = 0.8 * Max(Vⁱ_(level)) 这个方法可以在O时间收敛

原方法Q-LEARNING需要大量的POINT随机出一个数据，对于大矩阵，前期会有大量的0单元，浪费计算

标签：优化

相关文章

