让自动驾驶AI学会“聚焦重点",速度提升7倍却更加安全 原创

来自北京大学多媒体信息处理国家重点实验室和小鹏汽车的研究团队发布了一项重要研究成果,提出了一种名为FastDriveVLA的创新框架,让自动驾驶AI能够像人类司机一样,学会在纷繁复杂的道路场景中快速识别并聚焦于真正重要的视觉信息。

当你开车行驶在城市街道上,眼睛会自动忽略路边的广告牌、远处的高楼和天空中的云彩,而把注意力集中在前方的车辆、行人、红绿灯和车道线上。这种人类与生俱来的"选择性注意"能力,恰恰是目前自动驾驶AI最欠缺的技能之一。

让自动驾驶AI学会“聚焦重点

这项研究的核心突破在于:通过一种巧妙的"图像重建"训练方法,研究团队开发出了一个极其轻量级的"视觉筛选器",它能够像经验丰富的老司机一样,在看到道路画面的瞬间就判断出哪些信息值得关注、哪些可以忽略。更重要的是,这个筛选器一旦训练完成,就可以像USB设备一样"即插即用"地安装到各种自动驾驶系统中,无需对原有系统做任何重新训练。在nuScenes这个权威的自动驾驶测试基准上,FastDriveVLA不仅将视觉处理速度提升了7倍以上,在某些配置下甚至比不做任何精简的原始模型表现得更好——这个看似矛盾的结果恰恰印证了一个深刻的道理:少即是多,专注才能卓越。

为什么自动驾驶AI需要学会"做减法"

要理解这项研究的价值,我们需要先了解当前自动驾驶AI面临的一个核心困境。

近年来,一种被称为"视觉-语言-动作模型"(简称VLA模型)的技术在自动驾驶领域掀起了革命。这种模型借鉴了ChatGPT等大型语言模型的架构,能够同时理解视觉图像和自然语言指令,并据此生成驾驶动作。相比传统的模块化自动驾驶系统——需要分别处理感知、预测和规划三个环节——VLA模型实现了真正的"端到端"学习:从摄像头看到的原始画面直接输出方向盘转角和油门刹车指令,中间不需要任何人工设定的规则。

这种一体化设计带来了两个显著优势。其一,它消除了传统系统中模块之间的"信息断层"——当感知模块把三维空间中的车辆误认为是广告牌时,这个错误会像多米诺骨牌一样传导到后续的每一个模块,最终导致整个系统做出危险决策。端到端模型则让所有这些"翻译"过程在一个统一的神经网络内部完成,减少了误差累积的机会。其二,这种设计大大简化了系统架构,使得工程师可以专注于收集更多高质量的驾驶数据,而不是在各个模块的接口处修修补补。

然而,VLA模型有一个致命的软肋:它们太"贪心"了。为了充分理解一幅道路场景图像,这类模型通常会把图像切割成数千个小块,每个小块都会被转换成一个"视觉令牌"(类似于语言模型处理文字时的"单词"概念)。以本研究采用的Impromptu-VLA模型为例,一张分辨率为1596×1596的道路图像会产生多达3249个视觉令牌。这意味着什么呢?用一个形象的比喻来说,如果把AI处理每个令牌的工作比作阅读一个汉字,那么这个AI每看一眼前方道路,就要"阅读"相当于一篇3000多字文章的信息量。

问题在于,这3000多个"汉字"中,真正与驾驶决策相关的可能只有几百个——那些表示车辆、行人、车道线、红绿灯的部分。剩下的大部分信息都在描述天空有多蓝、路边的树叶有多绿、远处的建筑是什么风格这些与安全驾驶毫无关系的内容。但AI并不天然知道这一点,它会老老实实地把每一个令牌都认真"读"一遍,耗费了大量的计算资源和时间。

在实验室环境下,这种"过度阅读"或许还可以容忍。但在真实的自动驾驶场景中,每一毫秒的延迟都可能意味着生死之差。当车辆以每小时60公里的速度行驶时,50毫秒的延迟意味着车辆会在AI"思考"的时间里向前冲出近1米。如果前方突然有行人闯入,这1米的距离可能就是能否及时刹住车的关键。

因此,如何让VLA模型学会"抓重点"——在保证驾驶安全的前提下,大幅减少需要处理的视觉令牌数量——就成了一个迫在眉睫的技术难题。

现有方案为何在自动驾驶场景中水土不服

在FastDriveVLA出现之前,研究者们已经提出了多种减少视觉令牌的方法,但这些方法在自动驾驶这个特殊领域都表现不佳。

第一类方法被称为"基于注意力的剪枝"。这类方法的核心思想是:既然VLA模型内部本来就有一个"注意力机制"——用来判断视觉信息和文字指令之间的相关性——那为什么不直接利用这个机制来筛选重要的视觉令牌呢?具体来说,这些方法会观察模型在处理用户指令(比如"预测未来3秒的行车轨迹")时,哪些视觉令牌得到了更多的"关注",然后保留这些被关注的令牌,丢弃那些被忽视的。FastV和SparseVLM是这类方法的典型代表。

这个思路在处理类似"图片里有几只猫"这样的视觉问答任务时效果很好,因为用户的问题("猫")和图片中的关键内容(猫的图像)之间有非常直接的语义关联。但在自动驾驶场景中,这种关联就变得非常薄弱了。想象一下,自动驾驶AI收到的指令通常是什么?无非是"规划未来行车路径"或者"预测下一步的驾驶动作"这样固定且抽象的句子。这些文字和具体的道路场景之间几乎没有什么可以"配对"的元素——"规划"这个词既不会让AI更关注红绿灯,也不会让它更注意路边的行人。结果就是,基于注意力的方法在自动驾驶任务中几乎成了"瞎指挥",它选中的令牌往往并不是真正重要的那些。

第二类方法被称为"基于相似度的剪枝"。这类方法的逻辑完全不同:它假设图像中相似的区域是冗余的,因此应该尽量保留那些"不同"的视觉令牌,以覆盖图像中尽可能多样化的信息。VisPruner和DivPrune采用的就是这种策略。打个比方,如果把视觉令牌想象成一盒彩色糖果,这类方法的目标是挑出颜色尽可能不重复的糖果,确保每种颜色都有代表。

在处理内容丰富但没有明确重点的图像时,这种"求异"策略确实能够较好地保留全局信息。但自动驾驶场景恰恰是有非常明确重点的——那些与行车安全相关的"前景"区域(车道、车辆、行人等)远比其他区域重要得多。基于相似度的方法并不理解这种重要性的差异,它可能会认为天空中的一朵特殊形状的云彩和路面上的一个普通车辆同样"独特",于是保留了云彩而丢弃了车辆。在计算资源有限的情况下,这种"不分轻重"的筛选策略显然会损害驾驶安全。

更糟糕的是,还有一些方法试图通过设计新的"多模态投影器"来从源头上压缩视觉令牌的数量。这类方法虽然可能效果不错,但有一个致命的缺陷:它们需要对整个VLA模型进行重新训练。考虑到当前顶尖VLA模型的训练成本——动辄需要数十块高端GPU运行数周时间——这种方案在实际应用中几乎不可行。

FastDriveVLA的核心洞见:让AI学会"看重点"

FastDriveVLA的创新来自一个非常符合直觉的观察:人类司机是如何开车的?

当你手握方向盘行驶在公路上时,你的视觉系统并不是在平等地处理视野中的每一个像素。相反,你的注意力会高度集中在那些对驾驶决策至关重要的区域——前方车辆的位置和速度、路面上的车道标线、交通信号灯的颜色、可能穿过马路的行人。与此同时,远处的山峦、路边的广告牌、天空中的飞鸟——这些信息虽然也进入了你的视网膜,但大脑几乎不会对它们进行深入处理。即使突然有人把你眼前的天空换成完全不同的颜色,你可能都不会注意到,因为那根本不在你的"关注雷达"范围内。

研究团队将这种人类的注意力分配模式总结为一个简洁的原则:在自动驾驶场景中,"前景"信息(包括人、道路、车辆、交通标志和交通障碍物)对驾驶决策至关重要,而"背景"信息(建筑物、天空、路边树木等)则基本可以忽略。如果能让AI也学会这种"重点筛选"能力,就可以在大幅减少计算量的同时保持甚至提高驾驶性能。

但如何让AI学会区分前景和背景呢?研究团队想到了一个巧妙的方法:图像重建。

想象你是一位艺术系的学生,老师给你看了一幅城市街景照片几秒钟,然后要求你仅凭记忆把它画出来。由于时间有限,你不可能记住画面中的每一个细节,只能优先记住那些最重要、最显眼的元素。如果你的任务是"尽可能准确地画出街道上的所有车辆和行人",那么你的注意力自然会集中在这些前景物体上,而忽略背景中的建筑细节。这个过程中,"需要重建什么"这个任务本身就在隐式地教会你"应该关注什么"。

FastDriveVLA正是利用了这个原理。研究团队设计了一个轻量级的"视觉令牌筛选器",给它取名叫ReconPruner(重建剪枝器)。这个筛选器的工作方式是:首先给每个视觉令牌打一个"重要性分数",然后只保留分数最高的那些令牌,尝试用这些令牌来"重建"原始图像的前景区域。如果重建出来的前景画面和原图很接近,说明这些高分令牌确实包含了前景的关键信息;如果重建效果很差,说明筛选器"看走了眼",遗漏了重要的前景令牌。通过不断调整打分策略,筛选器逐渐学会了把高分给予那些真正承载前景信息的令牌。

这种训练方式借鉴了计算机视觉领域一种叫做"掩码自编码器"(MAE)的技术。在MAE中,模型需要从被部分遮挡的图像中恢复出完整图像,这个过程迫使模型学习图像的本质结构特征。FastDriveVLA把这个思想应用到了视觉令牌筛选上:让筛选器选出的令牌来重建前景,就相当于在训练筛选器"找出真正重要的视觉信息"。

对抗训练策略:防止AI"偷懒"

然而,仅仅要求筛选器重建前景还不够。研究团队在实验中发现了一个有趣的问题:如果只用前景重建质量来训练筛选器,它会学会一种"投机取巧"的策略——给所有视觉令牌都打高分。这样一来,虽然前景重建的效果会很好(因为前景信息肯定都被保留了),但筛选器就完全失去了"筛选"的意义,我们还是要处理全部的视觉令牌。

用一个生活化的比喻来解释这个现象:假设你是一个公司的HR,老板让你从100份简历中筛选出最优秀的10位候选人来面试。如果老板只根据"被选中的人有多优秀"来评估你的工作,你可能会干脆把所有100份简历都递上去——反正最优秀的那几位肯定在里面,你的KPI稳稳达成。但这显然违背了"筛选"的初衷。

为了防止ReconPruner学会这种"偷懒"策略,研究团队引入了一个"对抗性前景-背景重建策略"。这个策略的核心是:不仅要求用高分令牌重建前景,还要求用低分令牌重建背景。也就是说,筛选器不仅要能"选对"重要的令牌,还要能"排除"不重要的令牌——那些被打了低分的令牌应该主要包含背景信息,用它们来重建背景应该也有不错的效果。

这种双向约束彻底堵死了"偷懒"的路。如果筛选器给所有令牌都打高分,那就没有令牌来重建背景了,背景重建任务会彻底失败。如果筛选器给所有令牌都打低分,前景重建任务又会失败。只有真正学会区分前景和背景,两个任务才能同时完成得很好。

这种设计灵感来自于著名的"生成对抗网络"(GAN)思想。在GAN中,两个神经网络相互"对抗"——一个负责生成假图片,另一个负责辨别真假——正是这种对抗让生成器越来越擅长制作以假乱真的图像。FastDriveVLA借用了这种"在对抗中成长"的理念,通过前景和背景重建任务的相互制约,让筛选器的判断能力不断精进。

nuScenes-FG数据集:为AI标记道路上的"重点区域"

俗话说"巧妇难为无米之炊",再好的算法也需要高质量的数据来训练。为了教会ReconPruner区分前景和背景,研究团队首先需要大量标注了前景区域的自动驾驶场景图像。

让自动驾驶AI学会“聚焦重点

在前景和背景重建的可视化中,可以清晰地看到ReconPruner的工作效果。给定一张道路场景输入图像,ReconPruner选出的高分令牌能够重建出包含车道线、车辆、交通标志等元素的前景图像,而低分令牌重建出的则是去除了这些前景元素的背景图像——主要是天空、建筑物和路边植被。两张重建图像几乎完美互补,说明ReconPruner确实学会了精准区分前景和背景。

在与其他方法的对比可视化中,差异更加明显。FastV(基于注意力的方法)选择保留的视觉令牌分布比较零散,而且明显遗漏了图像中的部分车辆——这对于自动驾驶来说是致命的疏忽。DivPrune(基于相似度的方法)保留的令牌虽然数量不少,但空间分布过于分散,对车道区域的覆盖不够集中,可能影响轨迹规划的准确性。相比之下,FastDriveVLA选择的令牌高度聚焦在车道线、前方车辆、交通标志等关键区域,分布紧凑而有序,与人类司机的注意力模式高度吻合。

至顶AI实验室洞见

尽管FastDriveVLA取得了优异的性能,研究团队也坦诚地讨论了当前工作的一些局限性。

首先,ReconPruner的训练依赖于预先定义的"前景"概念。虽然研究团队的定义覆盖了大多数驾驶相关要素,但在某些特殊场景下可能不够全面。例如,道路施工现场的临时标识、动物穿越马路、或者极端天气条件下的特殊视觉线索,可能并不完全符合"人、车、路、标志、障碍物"这五类定义。未来的工作可以考虑引入更灵活的前景定义机制,或者让模型自适应地学习场景相关的重要性判断。

其次,当前的评估主要基于开环规划指标,也就是在固定的测试样本上比较预测轨迹与真实轨迹的差异。虽然这是自动驾驶研究中广泛使用的评估范式,但它无法完全反映系统在真实闭环驾驶中的表现——在闭环场景中,车辆的实际运动会影响后续的感知输入,形成复杂的反馈循环。研究团队表示,后续会在更接近真实场景的闭环仿真环境中进一步验证FastDriveVLA的效果。

第三,虽然FastDriveVLA的"即插即用"特性是一大优势,但它目前仅限于使用相同视觉编码器的VLA模型。如果未来出现了采用全新视觉编码器架构的模型,可能需要为新架构重新训练ReconPruner。不过,由于ReconPruner的训练成本很低(只需要两块H800 GPU训练3小时),这个限制在实际中并不算严重。

这项研究最重要的贡献可能不在于具体的技术方案,而在于它揭示的深层道理:有时候,"少"确实就是"多"。在自动驾驶这样的复杂任务中,让AI学会忽略无关信息,与让它学会理解重要信息同等重要。FastDriveVLA用一种优雅的方式实现了这个目标,为高效、安全的自动驾驶系统开辟了新的可能。

对于普通人来说,这项研究意味着未来的自动驾驶汽车可能会变得更加"聪明"——不是因为它们能处理更多的信息,而是因为它们学会了像人类老司机一样,知道什么时候该关注什么,什么信息可以安全地忽略。这种"智慧的专注"或许正是通往真正可靠自动驾驶的关键一步。

论文地址:https://arxiv.org/pdf/2507.23318

END
本文来自至顶AI实验室,一个专注于探索生成式AI前沿技术及其应用的实验室。致力于推动生成式AI在各个领域的创新与突破,挖掘其潜在的应用场景,为企业和个人提供切实可行的解决方案。

 

Q&A

Q1:FastDriveVLA是什么?

 A:FastDriveVLA是北京大学和小鹏汽车联合开发的一种自动驾驶AI加速框架。它通过一个名为ReconPruner的轻量级视觉令牌筛选器,让自动驾驶系统学会像人类司机一样只关注道路上的重要信息(如车辆、行人、车道线、交通标志),自动过滤掉不重要的背景信息,从而在保持甚至提升驾驶性能的同时,将视觉处理速度提升约7倍。

Q2:ReconPruner为什么能准确区分道路上的重要和不重要信息? 

A:ReconPruner采用了一种独特的"图像重建"训练方法。它被要求用高分令牌重建前景(车辆、道路等),同时用低分令牌重建背景(天空、建筑等)。这种双向约束迫使它精准学习什么是重要信息。如果分类错误,重建质量就会明显下降,系统会据此不断调整评分策略。

Q3:nuScenes-FG数据集包含哪些内容?

 A:nuScenes-FG是研究团队专门为训练ReconPruner构建的大规模数据集,包含24.1万张图像及其配套的前景分割标注。数据涵盖六个摄像头视角,每张图像都精确标注了五类前景要素:人、道路、车辆、交通标志和交通障碍物。该数据集将对外开放,供自动驾驶研究者使用。

来源:至顶AI实验室

0赞

好文章,需要你的鼓励

2025

12/31

14:12

分享

点赞