北航田大新:多模态信息融合感知技术分析

以“锻造产业链 提升竞争力”为主题的2022未来汽车生态大会于12月29日在北京隆重召开,大会邀请了政府领导、业界专家和企业家汇聚一堂,通过政策解读、热点剖析、战略研讨,为汽车产业生态建设建言献策,推动我国汽车产业实现高质量发展。

北航田大新:多模态信息融合感知技术分析

会上,北京航空航天大学交通科学与工程学院副院长田大新发表了主题演讲,以下为演讲实录:

今天我汇报的报告主题是“多模态信息融合感知技术”,整个报告主要分为以下三个部分。

首先如果回顾交通出行方式的演变,从20世纪汽车工业制造业普及到21世纪的信息通信技术在汽车领域的各个应用,使得汽车发展由传统的机械技术主导,转变为新型的ICT技术主导,可以说智能化的汽车将未来交通工具的主要载体。

当前自动驾驶系统的核心技术和系统装备,已经成为全球产业发展的制高点,世界各国也是相继制定相关的政策和措施,以推进智能化技术在交通和汽车领域的快速发展和落地应用。

如我国在促进道路自动驾驶技术发展和应用指导意见中提到,要建立智能汽车的自主研发体系,完成汽车产业转型升级,并建成一批国家级自动驾驶测试基地和先导应用示范工程,推动产业化落地。此外,欧美日等发达国家和地区也纷纷提出了自己相关的产业发展和项目规划,推动自己的智能化汽车技术的发展和产业应用。

根据现在国际上大家普遍接受的SAE的分阶标准,目前自动驾驶技术普遍划分为六个等级,从L0到L1级的人工辅助驾驶,到L3、L4级的限定场景自动驾驶,以及再到不限定场景的L5水平,最终实现完全的自主驾驶。

一个自动驾驶系统通常是利用各类传感器和车载的处理器来实现诸如环境感知、路径规划、行为决策和运动控制等关键功能。这里面环境感知是整个系统最基础的部分,通过信息融合等技术来有效组合并利用各类传感数据,构建环境感知的模型,来对目标进行检测和分割,最终获取物体的类比、位置和状态等信息。

当前,基于人工智能驱动的环境感知技术是以数据集合感知模型两条主线来并行发展,一方面是利用神经网络强大的自学习特性,针对特定的感知任务需求构建深度学习模型。另一方面以虚实结合的方式,分别从真实世界和仿真场景建立大规模、多模态的感知数据集,为模型训练和评测提供支撑。

因此多传感器的融合感知是自动驾驶感知技术发展的一大重要趋势,融合不同传感器的数据有助于获取目标特征的一致性描述,通过信息的互补性增强环境感知,来提升它的鲁棒性和泛化能力。

网联自动驾驶近年来也广受关注,利用5G通信技术将周围的网联车及路侧的基础设施联系起来,实现多视角的数据传输和信息共享,帮助智能汽车规避驾驶过程中潜在的冲突风险和安全的隐患。能够提升在遮挡、超视距、盲区等视觉不良场景下的感知能力,真正达到看得更远、看得更准的效果。

同时考虑到自动驾驶测试的成本和时间效率问题,构建相应的仿真验证平台也是目前一大研究方向,在自动驾驶仿真平台的感知模块,合成多种时段、不同天气、光照条件数据,用于评估感知方案的整体性能,这种流线化的方式将大大提升算法的应用测试便捷性。

近年来将深度学习数据融合等技术的涌现和应用,为自动驾驶环境感知提供一些新的解决思路。首先是多模态的信息融合感知,充分利用相机稠密语义,激光雷达的准确几何和毫米波雷达的运动状态信息,能够构建统一的多源信息融合感知框架,综合提升了复杂场景车辆的感知能力。

其次是俯瞰图的多任务感知,将环视相机数据转换到统一的俯瞰图像,融合目标的多视角信息,能够联合优化环境感知与运动的预测,从而规避不同任务的中间误差。

接着是车路协同感知,它也是新一代自动驾驶感知模式,融合网联车和路侧的设施数据,能够实现从单车到车车、车路的信息交互和共享,从而提升自动驾驶车辆的大范围、远距离的目标感知能力。还有空地一体化的感知,这也是一种新型的技术方向,它是一种跨域的多视角融合感知新形态,通过利用无线通信传输技术,将空地域的大市场目标信息结合起来,形成了一种空地一体化的协同感知架构。

最后是端到端的自动驾驶仿真,利用仿真平台来构建单车或网联的自动驾驶仿真场景,能够集成优化、感知、预测和规划模块,基础的感知模块能够为后续的运动提供环境信息,而运动误差会进一步用于反馈并修正感知的结果。以闭环的方式来提升车辆整体的感知性能和驾驶安全性。

我们实验室也围绕着多模态的信息融合感知技术进行了相关的研究,特别是围绕着单车视觉的感知精度不佳,以及融合感知的鲁棒性不足和智能感知的范围受限等开展了一系列创新性的研究工作。首先是提出了自注意力特征融合与视觉的感知算法,设计了自注意力的特征融合模块,优化目标回归和分类的损失函数,该方法能够取得超过90%的识别精度和每秒40帧的推理速度。

融合模块能够聚集物体的特征区域,并帮助模型在不同的天气、光照条件下,都能够准确的识别场景目标物。另一篇论文的工作,我们研究的跨模态的融合感知模型,构建了点云的语义增强模块,提出逐点特征融合方法,并引入了交叉比喻侧分支,实现了稳定鲁棒的融合感知表现。相较于单模态算法,所提出的模型能够取得10%的平均精度增益。

第三篇论文的工作也是继续围绕着多模态的柔和感知问题,研究的一种动态滤波与融合的方法,并推倒一种新的交并比损失函数,加速模型的训练收练过程。整体的融合框架能够高效通用,并能够牵到多种不同的单模态感知算法,稳定的提升了环境感知的性能。

随后我们也同样在仿真平台上部署并验证了上述的融合感知方法,通过仿真工具来构建图像和激光点云的感知仿真数据集,并设计了多传感器数据的融合感知网络,在仿真场景下进行验证评估。

最后我们也是研究了多车协同感知的问题,提出了多车的时空特征自身融合策略,并构建了车车的协同感知仿真数据集,用于评测的协同感知方法,在大范围的全域多源协调感知上实现这样的能力。

相较于单车感知算法所提出的方法能够提升30%的平均识别经路,表明了协同方法的优越性。

此外我们实验室还将感知算法实际的应用与相关的项目,如在河南驻马店的“公交都市”建设中,我们搭建了道路交叉口的雷达和视频一体化感知系统。在一些示范区的建设中也部署了一系列路侧感知算法,来支撑道路与车路协同的平台构建。

不仅如此我们也在空地的协同感知方面建立了一些平台,并参加了一些比赛,包括无人平台的立体跨域协同挑战赛等。设计的空地信息融合与目标检测算法,为无人平台的规划和控制提供了相对可靠的环境信息。

由于时间关系,我就先简单汇报一下我们实验室在这个领域相关的一些工作,也谢谢各位的聆听,敬请批评指正,谢谢。
 


主页 > 新闻资讯 >


读者留言

看不清?点击更换