文件名称:论文研究-基于SAUBQ学习的知识化制造系统自适应调度策略.pdf
文件大小:778KB
文件格式:PDF
更新时间:2022-10-10 12:21:10
论文研究
论文研究-基于SAUBQ学习的知识化制造系统自适应调度策略.pdf, 针对知识化制造环境下的自适应调度问题,提出基于状态-动作不确定性偏向Q学习(state-action uncertainty bias based Q-learning,简称SAUBQ学习)的知识化制造自适应调度策略. 该策略针对传统Q学习收敛速度慢,训练时间长等问题,引入信息熵的概念定义了状态不确定性测度,据此定义了Q学习动作偏向信息函数,通过对Q学习奖励函数采用启发式回报函数设计,将动作偏向信息利用附加回报的方式融入学习系统,并证明了算法的收敛性和最优策略不变性. 在学习过程中,Q学习根据偏向信息调整搜索空间,减少了Q学习必须探索的有效状态-动作对数目,同时偏向信息根据Q学习结果不断进行调整,避免了不正确的误导. 经仿真实验比较,结果表明,该策略具有对动态环境的适应性和大状态空间下收敛的快速性,提高了调度效率.