说起世界模型,前几天Google发现智能体需要世界模型,我们也进行了解读:通用智能体需要世界模型,Google DeepMind团队发现AGI的必经之路
然而最早下注世界模型的大厂,应该要算是Meta了。Meta首席科学家、图灵奖得主Yann Lecun,认为主流的GPT等自回归大语言模型缺乏对物理世界的理解能力,所以提出联合嵌入预测架构(JEPA),我们整理了JEPA的时间线,方便大家直观感受一下:
2025年6月,Meta公司的FAIR实验室在Github和Hugging Face上开源了最新的V-JEPA2模型,并且在arXiv上发表论文:V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning。
如果有一个AI能像人类一样观看视频,不仅能理解正在发生什么,还能预测接下来会发生什么,甚至能指挥机器人完成复杂任务,听上去还很遥远,但现在已经成为现实。
这个名为V-JEPA 2的AI系统就像一个学霸,它通过观看海量视频来学习理解这个世界。更令人惊讶的是,它不需要人类告诉它每个画面的具体含义,而是通过自监督学习的方法自己摸索规律。
研究团队让这个AI观看了超过100万小时的网络视频,这相当于一个人不眠不休看114年的内容。通过这种疯狂刷剧式的学习,V-JEPA 2掌握了三项核心技能:理解视频内容、预测未来发生的事情,以及指导机器人完成任务。
出人意料的是,这个AI在理解复杂动作方面表现出色。在一项名为Something-Something v2的测试中,它需要区分各种细微的手部动作,比如把东西向左推和把东西向右推,V-JEPA 2达到了77.3%的准确率,这在同类系统中属于顶尖水平。
当研究人员只给它看了62小时的机器人操作视频后,V-JEPA 2就学会了控制机器人。在实验中,它成功指挥机器人完成了抓取物体和搬运任务,而且这些机器人从未在它学习的环境中出现过。
从模仿人类学习开始:AI如何看懂视频的奥秘
传统的AI学习方式就像应试教育,需要大量标注好的数据,每张图片都要有人工标记这是猫、那是狗。但V-JEPA 2采用了一种更像人类的学习方式:它会主动遮住视频的某些部分,然后尝试猜测被遮住的内容是什么。
这种学习方法被称为掩码去噪,就像做填空题一样。想象你在看一部电影,突然某些画面被黑布遮住了,但你仍然可以根据前后情节猜测被遮住的部分发生了什么。V-JEPA 2就是通过这种方式训练自己的想象力和推理能力。
研究团队构建了一个庞大的视频数据集,包含2200万个视频片段,总计超过100万小时的内容。这些视频来源广泛,包括日常生活场景、动作演示、教学视频等。为了确保学习质量,研究人员还对数据进行了精心筛选,就像为学生挑选高质量的教材一样。
V-JEPA 2的大脑采用了Vision Transformer(ViT)架构,可以理解为一个专门处理视觉信息的神经网络。它有两个核心组件:编码器和预测器。编码器负责理解和记忆看到的内容,而预测器则负责根据已有信息推测缺失的部分。
为了处理更长的视频片段,研究团队还开发了一种渐进式训练策略。起初,AI只观看16帧的短视频片段(大约4秒),随着学习的深入,它逐渐能够处理64帧的长视频(约16秒)。这就像教孩子阅读时,先从简单的句子开始,然后逐渐增加到复杂的段落。
值得注意的是,V-JEPA 2使用了一种特殊的位置编码方法叫做3D-RoPE,这帮助它更好地理解视频中的时间和空间关系。就像给拼图的每块碎片标上坐标一样,这种方法让AI知道每个画面片段在整个视频中的确切位置。
预测未来的魔法:AI如何学会未卜先知
V-JEPA 2最令人惊叹的能力之一就是预测未来。但这种预测并不是神秘的占卜,而是基于对世界运行规律的深度理解。
在人类的认知理论中,我们的大脑会不断构建一个内在的世界模型,这个模型帮助我们理解和预测周围发生的事情。比如,当你看到有人举起茶杯时,你的大脑会自动预测接下来他们可能会喝茶。V-JEPA 2的工作原理与此类似。
研究团队特别关注一项叫做动作预期的任务:需要AI观看厨房场景的视频,然后预测接下来一秒钟内会发生什么动作。
在Epic-Kitchens-100数据集的测试中,V-JEPA 2展现了惊人的预测能力。这个数据集包含了100小时的厨房活动录像,涵盖了45个不同的厨房环境。AI需要预测动词("切"、"倒"、"拿")和名词("胡萝卜"、"杯子"、"刀"),以及它们的组合("切胡萝卜")。
V-JEPA 2在动作预测方面的表现令人瞩目,在回忆前5名的指标中达到了39.7的分数,比之前的最佳模型提高了44%。这意味着在100次预测中,有40次它的前5个猜测中包含了正确答案。
更有趣的是,研究人员发现V-JEPA 2的预测能力随着模型规模的增大而线性提升。当模型参数从3亿增加到10亿时,预测准确性显著提高。
为了理解AI的预测过程,研究团队还进行了可视化实验。他们训练了一个解码器来将AI的内在表示转换成人类可以理解的图像。结果显示,当给定相同的动作序列但不同的抓握状态(张开或闭合)时,AI能够正确预测物体是否会随着机械手臂移动。这表明AI已经理解了基本的物理规律,比如只有抓住物体才能移动它。
从观察到行动:训练AI控制机器人的智慧
拥有了观察和预测能力后,V-JEPA 2面临的下一个挑战是学会采取行动。这就像一个从未下过厨的人,通过观看大量烹饪节目学会了识别食材和预测烹饪过程,现在需要真正拿起锅铲亲自下厨。
为了实现这个目标,研究团队开发了V-JEPA 2-AC(Action-Conditioned,动作条件版本)。这个升级版本能够理解如果我执行某个动作,会发生什么结果这样的因果关系。
训练过程分为两个阶段。首先,V-JEPA 2通过观看网络视频学会了理解世界的基本规律。然后,研究人员冻结了这些已学会的知识,在此基础上添加了一个新的动作预测器。这个预测器专门学习:给定当前状态和某个动作,下一个状态会是什么样。
令人惊讶的是,这个动作条件训练只使用了62小时的机器人操作视频。这些视频来自Droid数据集,包含了各种桌面操作任务,比如抓取、移动和放置物体。重要的是,这些视频没有任何人工标注,没有人告诉AI哪些动作是好的,哪些是坏的,它只是观察动作和结果之间的关系。
V-JEPA 2-AC的架构包含一个冻结的视频编码器(来自预训练阶段)和一个新的动作条件预测器。预测器使用了一种特殊的注意力机制,允许每个时间步的信息与之前所有时间步的信息进行交互,就像一个人在做决定时会考虑所有相关的历史信息。
训练时,系统学习两种损失函数。教师强制损失确保AI能够准确预测下一帧的状态,而滚动损失则训练AI进行多步预测,避免错误累积。这就像学习开车时,既要学会根据当前路况做出正确反应,也要学会规划更长的行驶路线。
零样本机器人控制:当AI遇见真实世界
训练完成后,是时候让V-JEPA 2-AC接受真正的考验了。研究团队将其部署到两个不同实验室的Franka机械臂上,这些机器人从未出现在训练数据中。
控制机器人的方法被称为模型预测控制,这个过程就像下象棋一样。每次轮到AI行动时,它会在脑海中模拟多种可能的动作序列,选择最有可能达到目标的那个,然后执行第一步动作。接着,它会观察实际结果,更新对当前状态的理解,然后重复这个过程。
研究人员设计了几种测试任务。最基本的是单目标到任务,机器人需要将机械手臂移动到指定位置。在这个测试中,V-JEPA 2-AC表现出色,能够将机械手臂精确移动到距离目标4厘米以内,而且移动轨迹显示出明显的趋向目标特征。
更复杂的任务包括抓取物体、搬运物体和拾取并放置。在抓取任务中,机器人需要正确识别物体并执行精确的抓握动作。在搬运任务中,机器人需要在抓住物体的同时小心移动,避免物体掉落。最具挑战性的拾取并放置任务要求机器人完成完整的操作序列:接近物体、抓取、搬运到目标位置、然后放下。
实验结果很好。在基本的到达任务中,V-JEPA 2-AC达到了100%的成功率。在抓取任务中,对于杯子这样的物体,成功率达到65%,对于盒子达到25%。在最复杂的拾取并放置任务中,杯子的成功率为80%,盒子为65%。
研究团队还与其他先进的机器人控制方法进行了比较。他们测试了Octo模型(一个基于视觉-语言-动作的系统)和Cosmos模型(一个视频生成模型)。结果显示,V-JEPA 2-AC在所有任务上都表现最佳,特别是在涉及物体交互的复杂任务中优势明显。
有趣的是,研究人员还分析了V-JEPA 2-AC的能量景观。通过可视化AI在选择动作时的内在评估过程,他们发现这个系统确实学会了合理的物理直觉。例如,当需要向某个方向移动时,AI给出的最优动作确实指向正确方向,而且能量函数呈现出平滑的、局部凸的特征,这有利于规划算法找到最优解。
视频问答的新境界:让AI像人类一样理解视频内容
除了控制机器人,V-JEPA 2还在视频问答领域展现了令人印象深刻的能力。
为了实现这个功能,研究团队将V-JEPA 2与大型语言模型结合,创建了一个多模态系统。这个过程就像为一个擅长理解图像的专家和一个擅长处理语言的专家建立沟通桥梁,让他们能够协同工作。
系统的训练采用了渐进式方法,分为三个阶段。第一阶段专注于图像描述任务,让AI学会将视觉信息转换为语言描述。第二阶段扩展到图像问答,训练AI回答关于图像内容的问题。第三阶段则进入视频领域,学习理解和回答关于视频内容的复杂问题。
整个训练过程使用了8850万个图像-文本和视频-文本对,这个规模相当于让AI同时学习数万本图册和观看数十万小时的带解说视频。训练采用了Llama 3.1 8B作为语言处理的基础模型,这确保了系统具备强大的语言理解和生成能力。
在多个标准测试中,V-JEPA 2展现了卓越的性能。在PerceptionTest测试中,它获得了84.0的准确率,这个测试专门评估AI对物理世界的理解能力,包括物体运动、因果关系和空间推理等。在MVP数据集上,它达到了44.5的配对准确率,这个测试通过最小化文本和外观偏差来评估真正的物理世界理解能力。
特别值得关注的是,V-JEPA 2在时间推理任务上表现突出。在TempCompass测试中获得76.9的多选准确率,在TemporalBench测试中获得36.7的多二元短问答准确率。这些结果表明,AI不仅能理解视频中的静态内容,还能把握事件的时间顺序和因果关系。
令研究人员惊讶的是,即使V-JEPA 2在预训练阶段没有接触任何语言监督,但经过适当的对齐训练后,它的表现超越了许多专门为视觉-语言任务设计的模型。这打破了学界的传统观念,证明了自监督视频学习的强大潜力。
研究团队还进行了详细的消融研究,探索不同因素对性能的影响。他们发现,增加视觉编码器的规模和提高输入分辨率都能显著提升性能。当处理更长的视频片段时,V-JEPA 2的性能持续改善,这表明它真正从增加的时间信息中受益。
技术细节的巧思:构建强大AI系统的工程智慧
V-JEPA 2的成功不仅来自巧妙的算法设计,更离不开大量精心考虑的技术细节。
在数据处理方面,研究团队面临了巨大的挑战。他们需要从海量的网络视频中筛选出高质量的训练素材。为此,他们开发了一套基于聚类的筛选系统,这个系统就像一个经验丰富的图书馆员,能够识别和保留最有价值的内容。
具体来说,他们首先使用计算机视觉技术将视频分解为独立的场景片段,然后使用DINOv2模型提取每个场景的特征,接着将相似的场景聚类到一起。通过这种方法,他们从原始的316万个场景中筛选出115万个高质量场景,大大提高了训练效率。
在模型架构设计上,V-JEPA 2采用了多项创新技术。其中最重要的是3D旋转位置编码(3D-RoPE),这种技术帮助模型更好地理解视频中的时空关系。传统的位置编码只能处理二维的空间信息,而3D-RoPE将特征维度分成三个部分,分别处理时间、高度和宽度信息,就像为每个视频片段提供了三维坐标。
训练策略也经过了精心设计。研究团队采用了一种渐进式分辨率训练方法,开始时使用较低分辨率和较短的视频片段,随着训练的进行逐渐增加分辨率和长度。这种方法大大减少了计算需求——相比直接训练高分辨率模型,这种方法节省了8倍以上的计算时间。
在机器人控制的实现中,研究团队巧妙地解决了视觉表示与动作空间之间的映射问题。他们使用交叉熵方法来优化动作序列,这个过程就像在所有可能的动作中进行选秀,首先随机生成大量候选动作,然后根据预期效果排序,保留最优秀的候选者,最后基于这些优秀候选者生成新一轮的候选动作。
为了确保系统的鲁棒性,研究人员还进行了大量的敏感性分析。他们发现,相机位置的微小变化会影响机器人的控制精度,这是因为系统需要从单目视觉信息中推断动作的坐标系。虽然这在一定程度上限制了系统的即插即用能力,但研究人员提出了校准方案来解决这个问题。
在多模态融合方面,V-JEPA 2采用了非标记化的早期融合策略。与许多现有系统不同,它不将视觉信息转换为离散的标记,而是直接使用连续的特征表示。这种方法就像用高清照片而不是像素画来传递信息,保留了更多的细节和连续性。
实验验证的严谨性:科学方法的典范
V-JEPA 2的研究展现了现代AI研究的严谨性和全面性。研究团队不仅提出了新方法,更重要的是进行了详尽的实验验证,确保每一个声明都有坚实的数据支撑。
在视觉理解能力的评估中,研究人员选择了六个具有代表性的任务,涵盖了运动理解和外观理解两个方面。运动理解任务包括Something-Something v2、Diving-48和Jester,这些任务要求AI理解手势动作的细微差别。外观理解任务包括Kinetics400、COIN和ImageNet,主要考察AI对物体和场景的识别能力。
评估协议经过精心设计,采用了冻结编码器的方法。这意味着预训练的视觉编码器权重被冻结,只训练一个轻量级的分类器。这种方法就像考试时不允许学生查阅资料,纯粹测试已掌握的知识,确保了评估结果真实反映了预训练模型的能力。
在机器人控制实验中,研究团队特别注重零样本泛化能力的验证。他们选择了两个从未在训练数据中出现的实验室环境,使用了不同的机器人平台。这就像让一个只在模拟器中学会开车的AI直接在真实道路上驾驶,是对系统泛化能力的严峻考验。
实验设计还包含了多个对照组。研究人员将V-JEPA 2与基于行为克隆的系统Octo和视频生成模型Cosmos进行了直接比较。这些基准系统代表了不同的技术路线,使得比较结果更具说服力。
为了确保结果的可重复性,研究团队公开了完整的代码实现和详细的超参数设置。他们还进行了多次独立实验,报告了平均性能和方差,体现了科学研究的严谨态度。
在统计分析方面,研究人员不仅报告了平均性能,还分析了不同条件下的性能变化。例如,他们发现V-JEPA 2的性能随模型规模呈现线性扩展趋势,这为未来的模型设计提供了重要指导。
研究团队诚实地报告了系统的局限性。他们指出了相机位置敏感性问题,分析了长期规划的挑战,并讨论了当前方法的适用范围,为后续研究者提供了宝贵的经验教训。
意义深远的影响:重塑AI与机器人技术的未来
V-JEPA 2展示了一种走向通用人工智能(AGI)的可能路径。传统的AI系统往往专精于单一任务,而V-JEPA 2展现了在理解、预测和行动三个核心智能要素上的统一能力。这让我们看到了开发真正通用AI系统的希望。
未来的AI系统可能会具备更强的迁移学习能力。就像一个人学会骑自行车后很容易学会骑摩托车一样,未来的AI可能能够将在一个领域学到的知识快速应用到其他领域。这种能力将大大加速AI技术的应用和普及。
V-JEPA 2证明了一个重要理念:AI可以通过观察世界来学习,而不需要依赖大量的人工标注数据。
这项研究还为多模态AI系统的发展提供了新思路。V-JEPA 2成功地将视觉理解、语言处理和动作控制统一在一个框架中,这为开发更加智能和通用的AI助手奠定了基础。未来的家庭机器人可能既能理解你的语言指令,又能观察环境做出合适的反应,还能预测可能发生的情况并提前准备。
从科学研究的角度来看,V-JEPA 2验证了认知科学中关于内在世界模型的理论。人类之所以能够在复杂环境中导航和决策,很大程度上依赖于我们大脑中构建的世界模型。V-JEPA 2的成功表明,这种认知机制可以在人工系统中实现。
然而,研究团队也诚实地指出了当前系统的局限性。长期规划仍然是一个挑战,系统对环境变化(如相机位置)的敏感性需要进一步改善。此外,当前的方法主要依赖视觉目标,而在现实应用中,更自然的交互方式可能是语言指令。
尽管存在这些局限性,V-JEPA 2的成功为未来的研究指明了方向。研究团队提出了几个重要的发展方向:开发能够进行分层推理的模型,使AI能够在不同的时空尺度上进行规划;将语言理解更深度地集成到世界模型中,实现更自然的人机交互;继续扩大模型规模,探索更强大的智能涌现。
从技术发展的角度来看,未来几年可能会看到以下几个重要趋势:
1.模型规模的持续增长:研究表明,V-JEPA 2的性能随着模型规模的增大而提升。未来可能会出现参数规模达到万亿级别的视觉智能模型。
2.多模态融合的深化:未来的AI系统可能不仅能处理视觉和语言信息,还能整合声音、触觉等多种感官信息,形成更完整的世界理解。
3.实时学习能力的增强:当前的V-JEPA 2需要大量预训练,未来的系统可能能够在使用过程中持续学习和改进。
4.能效的大幅提升:随着专用芯片和算法优化的发展,运行复杂AI模型的能耗将大幅降低,使得在移动设备和边缘设备上部署强大AI成为可能。
结语
当我们看到一个AI系统能够通过观看视频就学会控制机器人,就像人类通过观察学习一样,我们不禁要问:智能的边界在哪里?未来的AI还能带给我们什么惊喜?
也许答案就隐藏在下一个100万小时的观察学习中。就像V-JEPA 2通过不懈的观察获得了理解世界的能力一样,人类也在通过不断的探索和创新,一步步接近真正智能的奥秘。
人类用了数百万年的进化才获得了观察、理解和行动的智能,而AI在短短几年内就展现出了相似的能力。这种进步速度让人既兴奋又深思:在这个智能快速发展的时代,我们该如何准备迎接一个AI与人类深度融合的未来?
V-JEPA 2给了我们一个答案的开端:通过观察、理解和学习,智能可以不断成长和进化。无论是人工的还是自然的,智能的本质都在于对世界的好奇心和理解力。在这个充满变化的时代,保持学习的心态,也许就是我们与AI共同成长的最好方式。
论文地址:
https://arxiv.org/abs/2506.09985
模型地址:
https://huggingface.co/collections/facebook/v-jepa-2-6841bad8413014e185b497a6
END
本文来自至顶AI实验室,一个专注于探索生成式AI前沿技术及其应用的实验室。致力于推动生成式AI在各个领域的创新与突破,挖掘其潜在的应用场景,为企业和个人提供切实可行的解决方案。
Q&A
Q1:什么是V-JEPA 2?
A: V-JEPA 2,全称是Video Joint Embedding Predictive Architecture 2,是Meta开发的一种世界模型。它在理解和预测物理世界方面的视觉任务上,取得了目前最先进的性能。
Q2:V-JEPA 2有什么功能?
A: V-JEPA 2提升了动作预测和世界建模的能力,这使得机器人能够与不熟悉的物体和环境进行交互以完成任务。该模型还可以用于零样本机器人规划,以便在新的环境中与不熟悉的物体进行交互。
Q3:Meta发布了哪三个新的基准来评估模型?
A: Meta发布了三个新的基准,分别是:IntPhys 2: 通过要求模型从两个几乎相同的视频中识别出哪个包含物理上不可能的事件,来测试其直觉物理能力;Minimal Video Pairs (MVPBench): 使用选择题来评估模型的物理理解能力,这些问题与视觉上相似但答案相反的视频配对,以防止模型采用捷径式解答;CausalVQA: 通过提问有关反事实、预测和规划的问题,来评估模型对物理因果关系的掌握程度。
好文章,需要你的鼓励
虽然软件工程师的平均薪酬比运维工程师高出10%以上,且有更多高薪职位晋升机会,但IT运维职业仍有其独特优势。首先,IT岗位入职门槛较低,约62%的运维工程师拥有本科学历,而开发者这一比例为73%。其次,IT工作更加多样化,从服务器故障排除到战略规划都有涉及。此外,IT工程师能更直接地看到工作成果,与最终用户接触更频繁。IT运维还提供更多样的职业发展路径,可转向网络、数据工程、网络安全等领域。最后,相比软件开发,IT运维工作受AI威胁较小。
微软研究院联合多所知名高校开发出SeerAttention-R稀疏注意力框架,专门优化AI推理模型的长序列解码效率。该技术通过自蒸馏学习让AI学会智能筛选重要信息,在保持近乎无损推理准确性的同时,实现了高达9倍的计算加速。系统采用轻量级插件设计,无需重训原模型即可集成,为长文本AI推理应用的普及铺平道路。
CityFibre宣布其专用企业级以太网服务覆盖范围扩大三倍,现可为超过26万家英国企业提供服务。此次扩展基于专用商用以太网平台,由工程合作伙伴Calix提供支持。该公司声称其以太网价格比主要竞争对手便宜20%。此项投资得益于全国范围内10Gbps XGS-PON技术升级,目前已在85%的网络中实施。
哈工大与阿里巴巴团队合作开发了ComfyUI-R1,这是首个专门用于自动化工作流生成的大型推理模型。该模型通过长链推理思维,能够根据用户自然语言指令自动生成可执行的ComfyUI工作流。在7B参数规模下,ComfyUI-R1达到97%格式正确率,在多项评估指标上显著超越GPT-4o等先进模型,为AI内容创作提供了更智能、更易用的解决方案。