创新 • 创优 • 创见
搜索
当前位置:主页 > 新闻资讯 >

百度王亮:VisionTakesAll视觉基础大模型重构自动驾驶技术的实践

时间:  2024-03-18 23:37   来源:  中国电动汽车百人会    作者:  editor

[汽车总站网 www.chianautoms.com欢迎你]
2024年3月15日,中国电动汽车百人会论坛(2024)在京开幕。围绕“巩固和扩大新能源汽车发展优势”这一核心议题,中国电动汽车百人会论坛(2024)将举办1场高层论坛、1场国际论坛、2场闭门会议、10场主题论坛,全面强化高端前瞻、全球视野、跨界融合的论坛特色。
在3月17日下午举行的智能汽车创新技术与产业论坛上,百度智能驾驶事业群组(IDG)首席研发架构师,技术委员会主席王亮发表了演讲。
百度王亮:VisionTakesAll视觉基础大模型重构自动驾驶技术的实践
以下为演讲实录:
尊敬的各位领导,行业同仁和媒体朋友:
大家好!我叫王亮,在百度智能驾驶事业群组,目前在负责智能驾驶的Tier1业务,今天很荣幸有机会和大家进行一场关于技术驱动创新的交流。
我今天分享的主题“VisionTakesAll视觉基础大模型重构自动驾驶技术的实践”,这三个单词代表了我们技术研发团队的愿景,我们希望用计算机视觉技术解决所有无人驾驶里面的感知问题。
过去一年中,在自然语言处理这个领域,以文心一言、ChatGPT为代表的大语言模型所呈现的智慧涌现能力,让我们看到了实现通用人工智能的曙光和路径。当下我们正处在一个以大模型为核心的人工智能新时代。
最近一段时间智能驾驶的热度同样节节攀升,但是和大语言模型相比,今天的智能驾驶的发展、普及还处在早期,消费者对于智驾的理解还比较浅,智驾功能距离成为消费者购车的头部考虑因素还欠些火候。我们认为其中一个很重要的原因是,当下市场上还缺乏能为用户带来体验“跨沟”级别影响力的优秀供给。如何借鉴语言大模型背后的技术理念、重构自动驾驶技术,加速智能驾驶企业跨沟是我和团队持续探索和践行的问题,今天借机把我们的思考和经验与大家做一个分享。
我们认为,未来具备体验跨沟潜力的智驾产品需要满足四个必要条件:
1、支持复杂城市道路的点到点领航辅助驾驶,发展城市智驾对提升用户智驾使用率非常关键。数据显示,在用车时长上,城市场景占比90%,同时每天仅有20%多的用户出行会通过高速,而城市道路占比为100%。
2、领航辅助驾驶功能的时空覆盖范围要广,不能仅限于个别样板间城市,要全国都能开。
3、当智驾大规模渗透数量快速增长的同时如何提升产品质量值得高度关注,用户使用智驾产品要有安心感,能对系统产生信任和依赖,在不同路段和时段使用体验方差要小,这点可以用我们比较熟悉的MPI即平均人工介入的里程指标来度量。
4、智驾产品通过用户的使用和反馈系统能够高频的迭代演进,给用户带来持续的获得感和体验层面的升级,这意味着智驾系统的核心是由人工智能、数据驱动的AI算法构建的,拥有自身的数据飞轮驱动自进化。
今天同时满足四个必要条件的智驾产品,严格意义上市场上还没有,各家都在努力的卷功能、卷体验,这个过程中我们与客户紧密配合,也取得了一些可喜的小成绩,在这里跟大家汇报一下。
去年我们的智驾产品实现了技术能力和产品体验的双重突破,基于BEV+Transformer的技术,我们在极越01上量产了国内唯一的纯视觉城市领航辅助驾驶产品,今年一季度最新版本已经率先落地了纯视觉占据网络技术,安全性和用户体验比市面上绝大多数搭载了激光雷达的产品还要好。
从客户披露的春节长假期限出行数据可以看出,用户对我们提供的智驾功能使用频次是很高的,93%的用户使用了高速、城市或者泊车的功能,日均自动驾驶历程渗透率48.2%,接近一半人驾、一半智驾。
覆盖方面,我们的点到点领航辅助驾驶已经覆盖了全国超过40万公里的路网,今年一季度我们的智驾已经支持了北京、上海、深圳、杭州四个城市,与此同时我们积极地进行路测,今年上半年我们将分批开放全国300个城市的领航辅助驾驶,大家可以期待的是,今年百度地图支持的道路我们的智驾就能跑。
得益于我们智驾系统的AI占比非常高、模型可以高频的迭代,过去一年中系统的核心关键模型累计迭代多达300多次,在客户SOP后的四个多月中,我们OTA给用户的智驾新增功能和体验优化项多达90多个,保证用户的反馈体验问题能够及时地得到解决。
我们的产品上市后同行和科技媒体争议最高频的就是为什么百度和极越选择了纯视觉这样一条异常困难的技术路线。
今天的智驾产品研发过程和交付绝对不是一锤子买卖,上市仅是起点,如何在后续用户的使用过程中通过反馈驱动产品力持续提升是技术路线选择的关键考虑因素,其中比初速度重要的因素是加速度这个跟时间相关的变量。
初速度决定了产品原型的研发速度,这点上激光雷达确实占优,厘米级精度的三维测距能力能让感知算法实现的难度大幅降低,工程师很快就能上手完成自动驾驶的闭环。相比而言,视觉的初速度就慢得多,从二维象素恢复三维信息是计算机视觉领域十几年、几十年几代科研人员在力图解决的难题,但一旦技术进入轨道,图像里天然蕴含的信息量优势会在其在迭代加速度上比所有主动光传感器都敏捷、都迅猛。同时,配合大模型、AI算法,视觉能达到的能力天花板也更高。
我们的观点是,强大的视觉技术是智驾产品能够实现体验跨沟的充分必要条件,视觉能力的高低决定了产品能否走到竞争的终局。一旦看清楚、想清楚这个问题,从战略聚焦的角度,我们决定把数据资源、模型参数量、训练算力、研发人力资源都Allin到演进速度更快、算法上限更高的视觉路线上。在大模型时代指导AI研发的一条规律就是OpenAI在2020年提出的ScalingLaws概念,中文可以分成规模法则。规模法则简单解释一下,随着数据大小、模型大小和用于训练的计算点数的增加,模型的性能就会提高,为了获得最佳性能,所有三个因素必须同时放大。下面让我们跟随规模法则进一步理解我们的路线选择和视觉能力能够领先的致胜之道。
首先,为什么选择视觉?我们从激光雷达和视觉的环境采样粒度对比一下。这里分别罗列了目前最主流的城市领航辅助驾驶使用的激光雷达、下一代我们认为业内最强尚未量产的激光雷达,以及目前在极越上使用的普通800万象素摄像头,他们从分辨率、最大频率、点频几个指标参数上可以简单计算出不同传感器的采样比。摄像头的采样密度是今天主流激光雷达的160倍,到了明天最好的激光雷达上市之后我们的密度仍然是它的20倍。
刚才说了一些可量化的数据指标,还有不可量化的数据指标。俗话说一图胜千言,图像中蕴藏的信息要比激光雷达点云中丰富,这里随便举的一个路口的案例。左边是激光雷达的点云数据,大家能看到有一系列障碍物,车经过的时候不能碰撞它们,这没有问题,但我们看右边这同一场景下、同一时刻捕捉的录像,可以看到太多点云看不到的信息,首先看到车道线斑马线上布满了行人,行驶方的过马路的,以及红绿灯的颜色都能看到,这里面一些人的表情、体态表示是加速过马路还是等待,我们的行人拿着箱子是一个还是两个物体,我们的摩托车上是一个人还是两个物体,这些信息没有视觉能力是没有办法从点云中获得的。
分享了视觉在图像数据信息方面的优势,再回顾如何设计算法把图像中蕴含的信息挖掘出来。(见PPT)左边是传统的模型迭代范式,每个模型由主干网络backbone和任务头head构成,backbone主要负责提取图像的特征,我觉得大家可以简单把backbone的作用想象成一个比如举重运动员的核心力量,他决定了这个运动员最后能举起的重量大小,在模型层面决定了模型的泛化能力和它的识别能力,head对backbone提取的特征特定任务进行预测。
但过去几年,算法从规则过渡到机器学习、数据驱动、车端模型的数量快速增长,在有限算力的资源下任务和模型增加带来很多显性问题,其中包括主干网络就是backbone这个核心主干网络它的参数量涨不起来、算力竞争让各个单一模型的参数量都受到限制。二是计算存在冗余,多任务之间的主干往网络他们在特征提取的步骤中有大量的计算是冗余的,每个都在做,对算力是一种侵蚀。最后,多学习任务之间是隔离的,我们难以学习图像的通用表征,各任务需要长期补充大规模人工标注的数据,来弥补模型泛化能力的不足。
于是我们下决心改变云端和车端的感知架构,如右图所示(见PPT),用一个多任务共享的统一基础感知模型代替原来模型的主干网络,在我们的预训练阶段Pretraining阶段,使用多元的图像数据,训练基础大主干网络,来学习图像的通用表征,这里的数据不再只限于自动驾驶场景下的数据,包括物联网的数据,包括叠加公开数据集的图像数据,都可以参与到这一步来。这一步优化了我们基础大模型(FoundationModel)的参数,这个模型的参数规模可以做到原来左边这种小的backbone的数十倍甚至百倍。在Finetuning阶段,可以锁定主干网络参数,使用来自于业务一线精标的业务数据充分优化各个任务head参数,这一阶段相比预训练可以更高频的去迭代,消耗的算力和数据资源也更小,团队研发也更加敏捷。
说起视觉方案很多人问我,大家觉得纯视觉车端不要激光雷达了是不是很低成本的方案,这里给大家分享一下我的一个认知,我觉得肯定不是这样的。支撑百度自动驾驶大模型发展的背后是我们在自动驾驶领域持续高强度的研发投入,刚才说到规模法则里面很重要的一条是算力,多大算力决定你的模型能走多远,在当前的训练算力方面,我们在智驾这个项目上投入的总算力资源达到了2.2eflops的量级,同时我们为了用户的体验提升、用户体验跨沟,我们现在对算力的使用是上不封顶的。所以大家可以看到,虽然我们去掉了激光雷达使用纯视觉,对消费者来说,他可以更低的成本去享受科技带来的便利。但是在背后我们的研发团队、客户投入了相当大的成本去促成这件事情,但是我们认为绝对是值得的。
自动驾驶视觉基础大模型是面向未来智驾的核心选择,百度在这方面已经投入了海量的资源,已经形成了很好的积累,未来如果每个车企都要去做的话,是不是还要投入这么多钱、还要买这么多卡,我们觉得肯定不是的,我们希望未来有机会给行业更多的客户分享我们基础模型的能力,更好更快地助力大家实现汽车智能化的跨沟。
这里我特别想分享一下我们跟客户的实践,还是刚才这张图的右半部分(见PPT),大家注意看,对整个供应商和主机厂的研发模式带来了一定的变化。
上面是我们百度主要负责的基础模型的训练,下面可以把个别的任务head包括它的数据、迭代交给我们的客户团队,甚至使用客户一线的数据,大家知道主机厂对数据非常看中,数据的第一落点是主机厂的服务器,比如我的用户在一个陌生的城市遇到了很多没见过的不同规格的红绿灯,如果我们的模型今天没有办法很好的实现,用户可以自己去采集数据,根据我们的标注规则在head上紫色的部分完成迭代,始终还是使用百度的backbone核心主干网络基础模型,我们的主干网络虽然没有这么快迭代,但是有非常强的泛化能力,客户用定制化的数据和他们的研发团队一起可以更高效的去满足用户的体验诉求。
大家比较好奇这个东西怎么用呢,又不开源,原来代码也是你们写的,我们跟极越的合作中为客户提供全套的AISaaS工具链,支持百度和客户团队高效的协同工作,目前我们整个工具链客户和百度是一模一样的,路上任何一个问题客户都可以通过百度提供的工具链去做问题的分析和对用户的回答,这点我觉得是大大提升我们研发迭代效率的一个利器,希望后续有机会感兴趣的主机厂跟我们一起沟通新的智驾迭代研发的模式。
以上就是我对视觉大模型重构自动驾驶技术的分享。面对汽车智能化激烈的市场竞争,百度将始终秉承开放共赢的理念,发挥我们在自动驾驶和AI技术上的优势,做好车企智能化的技术合伙人。
最后,非常感谢百人会提供了这次难得的交流机会。谢谢大家!

[汽车总站网 www.chianautoms.com欢迎你]

读者留言
看不清?点击更换

汽车总站网

  • www.chinaautoms.com/由北京茂胜文化传媒有限公司版权所有@2019

    京ICP备18056018号

    合作QQ: 305140880

    地址:北京市朝阳区清河营国际城乐想汇3号楼1612室