本项目旨在研究结构化增强学习(HRL)的快速策略迭代和自适应分层逼近等新理论和新算法,提高结构化增强学习在高维连续空间的泛化性能与学习效率;在理论方法创新的基础上,针对虚拟人与操作环境交互过程中存在的复杂约束问题,探讨多约束条件下虚拟人运动规划的技术难点,为复杂环境的虚拟人路径规划提供理论基础和高效算法。主要研究成果包括: (1)结构化增强学习的快速策略迭代理论和方法。为提高结构化增强学习中近似策略迭代算法的学习速度和收敛速率,分别提出了基于核的特征自动构造和基于流形的特征学习方法。首次在自适应评价在线学习中引入稀疏化核方法,实现了连续状态与行为空间的高效的在线增强学习算法。提出连续空间特征基构造的改进的图拉普拉斯方法,并且与一类称为表示策略迭代的近似策略迭代方法结合,提出一种新的流形增强学习算法,仿真和实验结果验证了该算法相比已有算法能够在多种参数设置条件下获得更好的学习性能。 (2)在已有工作的基础上,提出和完善了一种求解大规模或者连续空间问题的基于二叉树空间分解的分层近似策略迭代(HAPI)。从理论上分析得出,由于将初始的MDP分解成为具有二叉树结构的子MDP,再用API方法逼近局部近似最优策略,所以该方法可以降低复杂度并且保持较高的精度。通过对三个标准学习控制问题的试验,证明了在保持相同样本和基函数的条件下,HAPI方法与已有算法相比较,可以得到更好的近似最优策略。 (3)以虚拟维修应用中多约束条件下的虚拟人运动规划为目标,研究基于结构化增强学习的虚拟人分层运动规划理论框架。在该框架中,把运动规划问题描述为Markov过程模型,结合底层的RRT路径规划算法,通过结构化增强学习方法实现高维空间的虚拟人路径规划。 项目共发表论文22篇,12篇进入SCI检索,主要成果发表在IEEE Transactions on Neural Networks and Learning Systems, IEEE Transactions on Control Systems Technology等国际权威期刊,全部论文均进入EI检索源。项目负责人受邀担任国际期刊Information Sciences(IF=3.6)的Associate Editor和Int. J. of Adaptive Control and Signal Processing的Guest Editor 2100433B