9月24-26日,“2024中国汽车供应链大会暨第三届中国智能网联新能源汽车生态大会”在武汉市举办。本届大会由中国汽车工业协会和东风汽车集团有限公司联合主办,以“新挑战、新对策、新机遇——推动中国汽车供应链可持续发展”为主题,共设置1场闭门会议、1场大会论坛和4场主题论坛等6场会议,并有供应链发展报告发布、创新成果推介、香港车博会及论坛、中国汽车供应链协同创新全国行首站(东风汽车站)等一系列发布或配套活动。其中,在9月25日下午举办的“主题论坛二:构建供应链新生态——推进智能网联汽车新发展”上,科大讯飞股份有限公司市场与解决方案部总经理祝敏发表精彩演讲。以下内容为现场发言实录:
感谢协会提供这个平台,在中国汽车重镇、在东风的大本营有机会和大家交流。刚才听了张院长的分享,我深受启发,刚才罗秘书长讲了汽车的内卷。讯飞处在汽车的内卷,在AI和人工智能的内卷。我早上还在看,在我来之前,昨天和今天凌晨分别向大模型做了发布,Open AI的大模型也做了迭代,讯飞在昨天做了一个小迭代,大的会在我们的1024做迭代。今天能有半天的时间和大家进行分享,听各位行业大咖分享,是幸福的事情。下面我给大家介绍讯飞在智能座舱的实践和的观点。
2022年Open AI发布了3.5之后,引来了国内的百模大战,大家看到人工智能有3个要素,算法、数据、算力。算法在70年代已经出现了现在所有的算法,真正迎来大的转变是在互联网时代积累的数据,还有当前AI算力大规模的发展和迭代。
讯飞从创业至今一直从事AI和人工智能领域,并不是从发布之后才做认知大模型,在很早之前,讯飞有一个全国认知的重点实验室,Open让大家看到大模型在这样的数据和算力的情况下,它可以实现智能涌现,所以大家加大了这一块的投入。
2023年5月6日到今年6月份,讯飞大模型经历7次迭代,张院长刚才讲到算力很贵,对讯飞来讲不仅算力很贵,讯飞没有算力,讯飞从2019年以后继华为后被美国制裁,我们一直在非常有限的情况下做我们的大模型研发。在去年8月份之前,我们一直用千亿规模的参数,来PK别人万亿规模的参数效果,在8月份之后华为算力卡出来,讯飞联合华为做了国内首个万卡级自主算力平台的大模型,目前达到GPT-4相当的水平,未来在1024在10月份即将发布下一个版本,对标GPT-4O。
在座舱领域,我们一直在想大模型能给座舱带来什么变化?它的核心价值在哪里?我们认为在两个方向,一个是人机交互,一个是场景创新,再大的模型、再好的效果用在车上是什么效果,还是要看场景。我从这两个方向介绍一下讯飞的理解和想法。
借着我们的星火4.0,我们对讯飞座舱人机交互全链路做了优化和调整,首先是快,大家讲“一快遮百丑”,大家看到整个反应速度,相对于大模型没上之前,是有一个明显的降速,体验非常不好。我们在讯飞4.0基础上做了非常多的优化,端到端,做到平均效应速度1.5秒以内,这一块的数据在持续做优化。另外,在多语种和方言上,让我们用户不只是用普通话,还可以用方言,还可以是多语种,你说的时候,它反馈的就是方言和多语种。多情感多模态超拟人交互,首先要看到你,感知到表情和情绪做出对应的交互,包括超拟人的交互反馈。
我们在畅想人机交互的终局,车可能会变化一个贾维斯,变形金刚,包括霹雳游侠,什么是贾维斯式的交互?我们认为在多模融合结合大模型的自由交互,为汽车注入类人化的情感,可能是未来的方向。在前几天阿里云栖大会上,斑马的蔡先生也提到,什么时候在汽车座舱上出现iPhone时刻?我认为这一天肯定会来,但当前还远远没有达到这个程度,我相信大模型会给我们iPhone时刻做助力和赋能。
除了聪明,这我们理解这个伙伴还应该具备个性化的特征,所谓个性化,要感知当前车人上的特征,结合人脸感知车上是一个小孩、成人或者老人,给出不一样的场景和交互。其次,要根据使用的记忆和习惯做出对应的交互,包括做一些个性化的声音陪伴。
结合大模型,当你问它的时候它无所不能,需要星火帮助,能给反馈。比如我喜欢钓鱼,问这个地方适合钓鱼吗?结合大模型,和定位,给出建议,结合多模态的大模型和定位做的场景和应用。
下一代AI座舱和场景需要什么样的技术要素?当前在云端的大模型量非常大,在车上用的成本高,整个调用受云端网络链路的影响,现在很多车企和我们一起做端云结合,特别是端侧的大模型。说到端侧的大模型,我们当前在车上的技术平台就非常重要。现在随着国产的算力平台的发展,在算力方面已经能够给我们提供非常好的支撑。多模态的输入和输出,在车上不管是用原来的触摸键交互,还是语音交互,达不到多模态的交互。
我们在现有能力基础上做了一些场景介绍,这些场景是我们从讯飞角度提供的建议,包括我们做的旅行、健康、美食、影视,包括车上的K歌,下面从以上方面做介绍。
车上的健康,我们和车厂联合打造健康座舱的概念,大家知道长期开车,包括亚健康的人群,他们的健康需要额外关注,我们思考在出行过程中如何更好守护车主的健康?我们可以在车上做几件事,首先是对疾病的预警,大家知道现在车上搭载了DMS的摄像头,通过无感的探测,可以做心律、血氧、血压、呼吸频率检测,可以检测近十种疾病的探测;还有慢病检测,可以持续检测,给出对应的建议。包括在一些紧急问题出现的时候,可以问大模型,做紧急救援。
随行KTV,现在车上搭载K歌比例非常高,近一两年出现无麦K歌,结合车上的语音收音进行K歌,讯飞可以做AI伴奏提取,当你听一首歌的时候,你想唱,可以去原声,也可以去女声、去男音,可以和蔡依林一起合唱。包括买了新车如何使用?
用车知识,包括车上的标识,故障灯亮了是什么意思?我们可以结合多模态的感知。包括出现问题的时候,可以进行场景推荐,包括给出对应的答案。
包括沉浸式移动影厅,比如我不记得电影名称,可以根据电影场景利用大模型进行百科。
讯飞提供的AI技术也好,提供的应用也好,会和车企合作,以轻便简洁的模式搭载。我们现在逐步往多域融合方向走,我们中央单元处理能力越来越强,做集中化,一个单元有很多协助处理器。随着降车本,还有信息安全要求下,我们会逐步把很多算法,包括大模型,往本地去放。当前讯飞是先在一个SOC上把全栈AI实现部署,包括车上用到语音的、图像的、实现的,包括音响音效,像智驾,移植到一个SOC上,有一些实现了量产,有一些正在和车厂联合开发当中。包括认知大模型语音和端配合部署的方案,和很多车厂合作,我们打造整个车上的AI底座,助力打造智能汽车平台。
我们在落地过程中也遇到了很多问题,在这里抛砖,比如传统语音与大模型配合、衔接如何做协同?在车上本地场景下大模型不一定有传统语音好,如何做平衡?接入大模型后如何做拒识?我们在做落地化投入了大量的精力。当前有很多车厂做探索,把语音和本地端侧大模型、云端大模型做了拆分,可能是两三家供应商共同做这个事情,除了集成的难度,还有大模型的能力强,但是要考虑本地识别,对于本地识别来讲,现在对于大模型本地化之后是非常大的挑战。
讯飞是1999年成立,是中国第一家大学生创业的上市公司,有2个国家重点实验室。我们的业务除了大家熟知的语音、大模型,还在做智能音效、智能座舱,在汽车领域深耕21年,目前量产交付的车型超过1400个,基本上国内的车企都有合作,截止2023年年底前段搭载超过5700万台,现在在6000多万台。
讯飞在中国汽车出口过程中,给国内品牌提供了多语种支持,目前有超过23个语种,和国内主要车企出海都有合作。车上音响音效,目前做了车上的音响音效,全栈的算法都是讯飞自研,搭载从低端到高端多个平台,100%的国产平台也是在开发当中。在这几年的合作中获得了超过14家国内主流车企30多个车型的定点,储存了300多万台的装载量。除此之外,讯飞基于国产的芯片平台,像黑芝麻、华为,做我们自己的智驾解决方案,基于纯视觉的方案。讯飞基于大模型在做车企数字化方案,包括涵盖研发,代码助手、销售领域、客服领域、用车领域,都有产品的覆盖。
谢谢!
(注:本文根据现场速记整理,未经演讲嘉宾审阅)
|