【摘要】:早期表格型增强学习算法难以解决具有大规模或连续状态空间的优化决策问题,这极大限制了增强学习的应用推广。近年来,用于求解大规模或连续状态空间问题的值函数逼近方法成为增强学习的研究热点,而该类方法的一个关键问题是特征表示,直接影响着算法性能。智能驾驶车辆是人工智能的重要应用领域,受到越来越多的关注。如何利用机器学习方法提高智能车辆的自主决策和导航能力,提高车辆驾驶的安全性,是智能驾驶领域的研究热点和难点。本文在国家自然科学基金项目“结构化增强学习及其在虚拟人运动规划中的应用”、“自主驾驶车辆关键技术与集成验证平台”等支持下,以增强学习及其在智能车辆自主驾驶决策与规划中的应用为研究内容,重点开展了大规模状态空间中增强学习的特征表示方法、动态车流条件下智能车辆驾驶决策的增强学习方法和基于增强学习的智能车辆分层路径规划方法研究。本文首先综述了增强学习的研究现状,介绍了智能驾驶车辆的发展历程和研究进展,总结了智能车辆驾驶决策与路径规划方法的研究现状。论文取得的主要研究成果包括:(1)提出了一种基于随机神经元的近似策略迭代(RN-API,random-neuron based approximate policy iteration)算法,用于解决大规模或连续状态空间中的增强学习问题。该算法利用单隐层前馈神经网络来构造策略迭代过程中的值函数逼近器,不同于传统单隐层前馈神经网络,RN-API隐层使用的是随机神经元,即网络输入层到隐层的权值和隐层偏置是随机赋值,无需通过训练调整,只有输出层的权值需要通过学习得到。RN-API算法不仅保证了算法的泛化性能,而且减少了构造特征时需要人为优化调整的参数,提高了算法的可用性,理论分析表明该算法具有良好的特征表示能力和泛化能力。通过Mountain-car和倒立摆两个学习控制问题对所提算法进行了仿真研究,结果表明所提算法在保证泛化性能的同时能够有效降低特征表示过程中的参数调整优化难度。(2)提出了一种动态车流条件下智能车辆驾驶决策的增强学习方法,该方法首先将动态车流中的驾驶决策问题抽象建模为具有连续状态空间的马尔可夫决策过程,然后利用近似策略迭代算法进行求解。所提方法基于数据驱动,可以利用样本数据来获取驾驶经验,提高了智能车辆驾驶决策系统的学习能力和对环境的自适应能力。利用基于红旗HQ3自主车建立的高速公路驾驶决策仿真环境对所提方法进行了测试,结果表明了所提方法解决动态车流条件下驾驶决策问题的可行性和有效性。(3)提出了一种基于增强学习的智能车辆分层路径规划方法,该方法上层通过A*搜索快速找到一系列子目标点,下层利用基于增强学习的路径优化器对规划路径进行平滑优化处理。所提方法利用增强学习算法训练路径优化器,训练过程结合了车辆运动学特性,使得路径优化器得到的规划路径符合车辆运动学约束,更利于后续的车辆跟踪控制。对所提方法进行了仿真实验,结果表明所提方法能对规划路径进行有效的平滑优化,并具有较好的自适应性,能够处理一定的环境不确定性。(4)设计实现了基于增强学习的智能车自主驾驶决策系统,在真实交通环境中对该系统进行了实车测试,实验结果表明,在动态车流条件下,利用从数据中获取的决策经验,该系统能够保证智能车在实际交通环境中安全快速行驶,为以后利用增强学习进一步提高智能车辆的自主决策能力奠定了基础。论文最后对将来有待进一步研究的问题进行了分析和展望。
[汽车总站网 www.chianautoms.com欢迎你]上一篇:智能驾驶时代我国商业车险发展研究