(资料图)
“万物皆可大模型”成为今年各个产业都逃不开的话题。 年初以来,能够代写论文、写报告甚至写新闻的ChatGPT,彻底引爆了社会各方对大模型的关注。在大众纷纷担心自己是否会被AI所取代时,自动驾驶产业已经瞄准大模型的商业价值,纷纷推出大模型。近日,理想汽车在理想家庭科技日发布会上宣布,理想采用大模型算法,自研MindGPT。多方吹捧的大模型,能否为自动驾驶产业带来“第二春”?
大模型成新宠
“自动驾驶技术正进入以数据和知识双驱动的多模态感知和认知理解为代表的新阶段。”中科院雄安创新研究院认知智能实验室副主任黄武陵在接受《中国汽车报》记者采访时表示,大语言模型(LLM)、跨模态大模型的出现,为自动驾驶产业的发展带来突破口。目前,行业对大模型的定义是只有在参数达到千亿以上才能够被称为大模型。当AI模型足够大,经过不断地训练与学习,就有可能实现智能化。因此,被看作能够改变世界的大模型,成为自动驾驶的新希望。 在数据闭环和仿真环节,大模型将赋能自动驾驶。商汤科技联合创始人、首席科学家王晓刚表示,在人工智能1.0时代,大量的人工标注导致数据标注时间长、成本高、挖掘难度大。但在人工智能2.0时代,基于大模型可以实现自动标注,大大降低成本,可快速进行优化和迭代。另外,还可通过AIGC利用人工智能做内容生成,模拟生成高度真实的场景,助力自动驾驶技术更好地进行测试和优化。“在大模型的辅助下,研发人员可以更多集中在关键算法及其提升体验上,集中打磨出更多满足用户体验、效果良好的产品。”黄武陵说道。 在王晓刚看来,多模态大模型的应用还可实现从感知到决策、规划、控制,端到端一体化的优化。“当前大多是感知输出一个结果,基于规则做一些判断,做出决策,然后再基于手动规则,实现规划控制。”他认为,未来大模型通过人工智能,可以实现端到端自动驾驶,提供更加可靠、像人开车一样的体验。 目前行业普遍认为,在技术方面,自动驾驶的底层架构和大部分技术问题已得到解决,但由于现实道路场景复杂,即便现有技术已实现90%以上场景的自动驾驶,剩下10%的长尾场景始终无法覆盖。黄武陵表示,随着大模型在垂直领域的应用逐渐成熟,成本可控且性能效率良好的前提下,大模型有望在环境认知理解、智能决策等算法功能上得到应用,将交通指示和驾驶经验得以沉淀和应用,缓解自动驾驶的“长尾问题”。 此外,大模型还能为自动驾驶“抛弃”高精地图提供助力。要想实现高级别自动驾驶,高精度地图不可或缺,但实时更新难度大、法规风险高、成本极高三座“大山”始终难以跨越。摆脱高精地图,成为不少企业的选择。随着大模型渐受关注,安信证券研报指出,AI大模型将助力企业实现“脱高精度地图”。BEV感知算法通过将不同视角的摄像头采集到的图片统一转换,相当于车辆实时生成地图,补足自动驾驶后续决策所需的道路拓扑信息,实现“脱图”。 产品接连发布受到各界追捧的Chat-GPT,全称为“Generative Pretrained Transformer”,其采用了谷歌在2017年提出的Transformer架构。对于自动驾驶领域而言,Transformer架构则并不陌生。早在2021年,特斯拉便将Transformer架构引入自动驾驶领域,推出基于Transformer的BEV感知方案。这是大模型技术在自动驾驶行业的首次亮相,也成为特斯拉实现纯视觉自动驾驶方案的关键所在。随后,华为、商汤科技、百度Apollo等企业相继在“BEV+Transformer”上展开布局。中信证券研报指出,随着小鹏城市NGP、华为城区NCA功能、毫末智行城市NOH等城市领航功能的相继落地,“BEV+Transformer”将引领自动驾驶感知范式。 如今,大模型绝不仅限于自动驾驶感知领域。今年4月,毫末智行正式发布自动驾驶生成式大模型DriveGPT“雪湖·海若”。据毫末智行首席执行官顾维灏介绍,毫末DriveGPT通过引入驾驶数据建立RLHF(人类反馈强化学习)技术,对自动驾驶认知决策模型进行持续优化,现阶段主要用于解决自动驾驶的认知决策问题,终极目标是实现端到端自动驾驶。顾维灏表示,毫末DriveGPT将率先探索智能驾驶、驾驶场景识别、驾驶行为验证、困难场景脱困四大应用场景,首先将开放智能驾驶、驾驶场景识别两大应用场景。
在自动驾驶领域,商汤科技开发了业界首个感知决策一体化的端到端自动驾驶解决方案——UniAD,在多目标跟踪准确率、车道线预测准确率等多项关键技术指标上超越SOTA方法,整体系统和性能得到大幅提升。“未来,我们将利用多模态大模型,进一步推动自动驾驶技术发展,如通过AIGC产生大量困难样本,用环视感知的数据,和多模态数据作为多模态大模型的输入,实现感知和决策一体化的集成。”王晓刚表示。 于不久前正式亮相的Mind GPT,则是属于理想汽车自研的认知大模型。理想现已用1.3万亿个token为其进行基座模型训练,让其对话生成、语言理解、知识问答、逻辑推理等多项能力更安全、更准确、更有逻辑。在Mind GPT的赋能下,理想汽车所搭载的智能语音助手——理想同学,将像人一样主动感知环境和他人、学习和思考、表达和互动。此外,在智能驾驶方面,理想AD Max 3.0可通过大模型AI算法,摆脱对高精地图的依赖,实时感知、决策、规划,识别准确度相当高。理想汽车智能驾驶副总裁郎咸朋表示:“在先进的技术架构和高效的训练平台共同推动下,智能驾驶将会很快在家庭出行中实现大规模普及,AI驾驶员替代人类驾驶员的时代也不再遥远。” 此外,百度此前也表示,要将文心一言大模型应用在自动驾驶上,以加深Apollo自动驾驶车辆对复杂城市路况的理解,进一步提升其自动驾驶安全性和可靠性。斑马智行则基于阿里巴巴通义千问大模型,打造了第三代汽车AI能力体系Banma Co-Pilot,构建云端一体的全栈AI能力。日前,特斯拉首席执行官马斯克也表示,特斯拉会迎来自己的“ChatGPT时刻”,如果不是今年,肯定也不会迟于明年。一系列大模型产品的相继发布,可见大模型在自动驾驶领域的“受宠”程度。 商业化为时过早“目前大模型究竟能给行业带来什么影响尚不明晰,一些有能力、有资金的企业只是处于率先探索阶段,商业化还为时过早。”全联车商投资管理(北京)有限公司总裁曹鹤表示。 聚焦自动驾驶大模型,就此前发布的几款大模型产品究竟含金量几何,自动驾驶行业从业者吕兆波并没有太大信心。他直言:“DriveGPT很不现实,就算大企业投资研发,没有5~10年很难见到成果。这个大模型的概念很大,他们可能就是做一个简单的数据融合。” 在吕兆波看来,大模型的优点就是能够将各组数据融合在一起,对外界环境的感知更为准确。但是,要想使用大模型,首先就面临部署问题。“如果大模型部署在云端,延迟问题很难解决;而如果部署在车端,如此庞大的数据量,延迟问题同样不容小觑。”他说道。上不上车,成为困扰自动驾驶大模型商业化的首要问题。 对此,地平线创始人兼首席执行官余凯在参加2023中国电动汽车百人会论坛时提出,车端的能量供给与散热等现实困难,使得自动驾驶无法采用类似ChatGPT云端计算中那样庞大的模型与计算量。顾维灏在接受媒体采访时则表示,云端模型与车端模型的大小并不是完全等同的关系,目前DriveGPT参数规模已达1200亿,但并不意味着把这1200亿的参数大模型都上到车端,关键是留住核心能力。 此外,成本问题也是困扰之一。有业内人士指出,自动驾驶系统如果要上大模型,至少要增加5万美元成本,随着大模型进一步变大,成本或许会进一步增加。对此,吕兆波称,成本问题可通过云端部署解决,但前提是解决云端的延迟问题。即便是大模型自身,也认为成本问题是一大重要考虑因素。在回答“如果将ChatGPT应用到自动驾驶中,是否会成本过高?”这一问题时,Chat-GPT给出的回复表示,将ChatGPT应用于自动驾驶系统会涉及一定的成本,主要涉及计算资源、数据收集和训练、模型开发和集成等几方面。 舆论火热 资本冷静前有创新工场董事长兼首席执行官李开复宣布筹办全球化公司Project AI 2.0,后有搜狗创始人王小川投资5000万美元成立百川智能。此前,红杉中国种子基金也表示正在密切关注并开始布局AIGC领域的早期企业。一方是资本盛宴,另一方则略显冷清。2022年以来,裁员、倒闭、关停的消息充斥自动驾驶产业,不少人感叹自动驾驶进入“寒冬期”。虽说大模型在自动驾驶领域的应用还为时过早,但不可否认,大模型的出现给正处于寒冬的自动驾驶产业重新燃起一把火。这波与大模型的联动,能让渐失热度的自动驾驶重获资本宠爱吗? 中国生产力促进中心协会常务副理事长兼秘书长、研究员王羽认为,大模型的出现提供了一个群体性的突破机会,能够提振行业信心,重塑单车智能技术路线。不过,在汽车行业分析师邵元骏看来,尽管资本对于大模型热情高涨,但经过多年发展,资本已经认清自动驾驶产业的发展现状,不会在大模型萌芽期贸然进行大手笔投资。 据王晓刚介绍,ChatGPT这样的大模型仅训练一次便需要上千万美元的成本投入,商汤科技近几年在AI研发中已累计投入上百亿元,仅临港AIDC基础设施投入便超50亿元。动辄成百上千亿元的投入,在自动驾驶领域却很难短时间实现盈利。 “现在受经济形势影响,整个资本行业本身就面临寒冬,钱不多,出手就会更加谨慎。”邵元骏说。如此看来,炙手可热的大模型似乎也难解当前自动驾驶产业之寒。