创新 • 创优 • 创见
搜索
当前位置:主页 > 智能网联 > 智能驾驶 >

基于深度强化学习的无人驾驶智能决策控制研究

时间:  2021-09-04 21:58  来源:  汽车总站网   作者:   编辑部

[汽车总站网 www.chianautoms.com欢迎你]

【摘要】:随着人工智能技术的发展,越来越多的智能应用正在潜移默化的改变我们的生活。无人驾驶车辆是未来交通的发展方向,决策控制问题则是无人驾驶技术发展需要面对的重要问题。因此,将人工智能技术与无人驾驶决策领域相结合,有着十分广阔的应用前景和重要的研究意义。示教学习和强化学习都是训练智能体学习如何“做决策”的方法,它们有着各自的优缺点。本文选择并分析了两种方法的代表性算法:数据聚集(Dataset Aggregation,DAgger)和深度确定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG),发现DAgger算法虽然策略收敛较快,但示教策略限制了智能体的学习上限;而DDPG算法虽然不需要定义示教策略,但存在奖励值函数难以定义、训练效果波动较大等缺陷。因此,本文针对无人驾驶决策控制问题,提出将示教学习与强化学习相结合的解决方案,尝试吸取示教学习算法的优点,对强化学习算法训练效果进行提升。基于DDPG算法,本文提出了融合示教的DDPG算法(DDPG with Demonstration,DDPGw D)。算法的基本框架基于演员-评论家网络结构,本文重新设计了评论家网络的训练损失函数,在原有的时序差分损失基础上增加了对于示教数据的监督损失,采用示教动作与当前策略输出动作的动作-价值函数(Q值)均方差的形式,并增加边界值以保证监督效果。本文从理论上对新框架下的网络参数更新公式进行了推导。针对DDPG训练波动较大的问题,本文提出了一种合成经验回放思路,尝试在每个训练回合中都保证采样一定比例的“表现好”的转移过程,试图保证训练数据的多样性,提升网络训练效果。对于初始训练阶段,本文尝试存储每回合中最优的转移过程代替“表现好”的转移过程,以解决“表现好”数据量过少的问题。结合示教监督思路,本文设计了DDPGw D算法的总体训练流程。本文使用了人工智能领域常用的智能驾驶仿真环境,开源赛车模拟器(The Open Racing Car Simulator,TORCS)对算法进行了仿真验证,证明了上述算法在自动驾驶决策控制领域中的有效性。

[汽车总站网 www.chianautoms.com欢迎你]

读者留言
看不清?点击更换

汽车总站网

  • www.chinaautoms.com/由北京茂胜文化传媒有限公司版权所有@2019

    京ICP备18056018号

    合作QQ: 305140880

    地址:北京市朝阳区清河营国际城乐想汇3号楼1612室