【摘要】:近年来,轨道交通在我国综合交通运输体系中发挥着日益重要的骨干作用。伴随着列车运行速度、密度的不断提高以及运行场景、环境的日益多样与复杂,人工驾驶列车已经很难满足列车运行控制系统自动化、智能化水平提升需求,发展列车自动驾驶(Automatic Train Operation,ATO)是大势所趋。当前多数针对ATO控制方法的研究聚焦于给定模型的参数进行策略优化,缺乏面对复杂运行环境和多样运营需求的鲁棒性、适应性以及自学习性,难以适应ATO智能化、智慧化发展需求。另一方面,强化学习(Reinforcement Learning,RL)和深度强化学习(Deep Reinforcement Learning,DRL)等人工智能新理论和新方法近些年得到飞速发展,不仅在图像识别、语义识别、游戏竞技等方面卓有成就,也逐渐向自动控制领域渗透,例如仿生机器人、无人汽车等,赋予了行业新的发展动能。因此,本文基于对轨道交通列车自动驾驶技术特征和强化学习等人工智能方法的深入认知与分析,结合轨道交通“安全、准点、绿色、舒适”四方面的关键需求,针对基于强化学习的列车自动驾驶新方法展开探索与研究,论文的主要创新工作和贡献如下:首先,基于现有列车自动驾驶技术的控制原理和优秀司机的驾驶经验,提出一种基于策略梯度强化学习的列车ATO优化方法,以减小列车的牵引能耗。通过建立列车控制专家系统,构建符合节能工况且满足乘客舒适性要求的控车策略;在此基础上,利用神经网络作为列车驾驶控制器,设计了一种基于策略的强化学习算法,通过对列车运行历史数据的持续学习,不断优化神经网络的参数,从而更好的适应变化的运营场景。基于现场运行数据仿真结果表明,该智能算法比现有算法具有更好的节能效果和准时性。其次,提出了一种基于值函数强化学习的列车自动驾驶优化方法。在建立列车节能控制数学模型的基础上,利用Q学习模型与方法求解列车的最优节能运行策略,突破传统的基于固定模型的列车运行控制优化方法,能够适应多样复杂的列车运行环境和线路条件,并充分利用列车历史运行大数据,在满足准时性和乘客舒适性的前提下,有效地减少列车牵引能耗。仿真结果表明该算法较传统动态规划(Dynamic Programming,DP)方法能够在更短的时间内获得更优的节能运行策略。最后,在前两项方法研究的基础上,引入深度学习方法,提出一种基于深度Q学习(Deep Q Network,DQN)的列车驾驶智能控制方法,该方法无需使用传统的列车动力学先验知识和预先设计的速度-距离曲线,而是运用大量的驾驶经验以训练深度学习神经网络,经训练的神经网络能够根据任意输入状态,以节能为主要目标,以安全、准点、舒适和停准为基本约束,实现“端到端”方式的智能控车模型。经基于真实线路和车辆参数的仿真实验证明,该方法面对变化的运行计划及其他动态影响因素,具有良好的适应性和鲁棒性,能够保证列车安全准点、节能舒适的运行至车站并在允许范围内准确停车。
[汽车总站网 www.chianautoms.com欢迎你]