在AI播客Latent Space近日发布的一期对话中,World Labs联合创始人李飞飞与Justin Johnson深入探讨了"空间智能"这一概念——他们认为这将是大语言模型之后AI发展的下一个前沿。
李飞飞常被称为"AI教母",这位斯坦福教授在2006年发布了ImageNet视觉数据库的学术成果,由此开启了教会计算机像人类一样"看"的探索,并点燃了一波AI发展的浪潮。就在三天前的11月24日,思科投资宣布向World Labs注资,李飞飞在声明中表示:"World Labs只有一个热情驱动着我们:推进AI以增强人类潜能并创造现实世界的影响。"

World Labs在2024年9月走出隐身模式时,已获得2.3亿美元融资。如今公司估值已超过10亿美元,成为空间智能领域当之无愧的领跑者。而这期播客录制的时间点恰在Marble正式商业化发布之际——Marble是World Labs的第一款商业化生成式世界模型产品,能够从文本、照片、视频或3D布局生成可编辑的3D环境。
1. 从ImageNet到空间智能:一条跨越十三年的路径
"当我加入李飞飞实验室的那个学期,正是AlexNet发布的那个学期。"Johnson在播客中回忆道。那是2012年,由Alex Krizhevsky、Ilya Sutskever和Geoffrey Hinton组成的SuperVision团队,凭借AlexNet在ImageNet大规模视觉识别挑战赛中以15.3%的top-5错误率夺冠,比第二名高出超过10.8个百分点。
这里的"top-5错误率"是ImageNet竞赛的核心指标:给模型一张图片,它会输出五个最可能的答案,只要正确答案在这五个里面就算对。15.3%的错误率意味着84.7%的图片都能被正确识别——在当时,这个成绩远超所有传统方法,震惊了整个学术界。
李飞飞正是ImageNet的创建者。ImageNet的完成是训练AlexNet的关键——这个数据集包含超过1400万张标注图像,涵盖22000多个类别。2012年的这场胜利,标志着深度学习从一个被多数人认为不切实际的美好想法,转变为具有实际应用价值的技术路径。
Johnson是李飞飞最优秀的学生之一。博士毕业后,他先后在Facebook担任研究科学家,又在密歇根大学担任助理教授直到2024年。两年多前,师生二人重新聚首,发现彼此都在思考同一个问题:语言模型之后是什么?
"我们独立地都在关注大模型的发展,思考语言模型之外还有什么,"李飞飞说,"构建世界模型、空间智能——这对我们来说是自然而然的方向。"
2. "深度学习的整个历史,某种意义上就是计算扩展的历史"
Johnson在播客中给出了一个惊人的数据对比。
从AlexNet训练时使用的GPU到今天,单卡性能已经提升了约一千倍。而现在训练大模型动辄使用成百上千甚至上万张GPU。"我们今天能调动的计算量,比我读博刚开始时多了大约一百万倍。"
这种计算能力的指数级增长,让深度学习从一个学术概念变成了席卷全球的技术革命。语言模型是过去几年里"真正开始运转得相当好"的领域。但当我们想要处理视觉数据、空间数据、世界数据时,需要处理的信息量要大得多。
"我最近做了个计算,"Johnson说,"如果你每天24小时不停说话,以每分钟150个词的平均语速,大约能产生21.5万个token。但你生活的这个世界的带宽比这大得多。"
这里的token是语言模型处理文本的基本单位,大致相当于一个词或词的一部分。21.5万个token听起来很多,但换算成中文大约是十几万字——一个人一天不眠不休能说的全部内容。而你每天用眼睛看到的信息量、用身体感知到的空间信息,远远超过这个数字。
这就是空间智能存在的意义——语言是一个低带宽、有损的通道,无法完整描述我们身处的三维物理世界。
3. 空间智能不是"传统智能"的对立面
有人问李飞飞:当Dario Amodei说"我们有一个装满爱因斯坦的数据中心"时,他指的是传统智能而非空间智能,这两者有什么区别?
"首先,我不理解那句话,"李飞飞笑着回应,"一个装满爱因斯坦的数据中心——我就是不明白它的意思。"
她接着给出了自己的解释框架:人类智能本身就是多元的。心理学家Howard Gardner在1960年代就提出了"多元智能"理论——语言智能、空间智能、逻辑智能、情感智能。"所以对我来说,空间智能是语言智能的补充,而不是与'传统智能'对立——我不知道'传统'是什么意思。"
她举了DNA结构发现的例子。Francis Crick和James Watson推导双螺旋结构的过程,很大程度上依赖于对分子和化学键在三维空间中排列方式的推理。"那种能力,很难还原为纯粹的语言。"
但这种能力又无处不在。"每一天,我在这里试图抓住一个杯子。看到杯子、看到它所处的环境、看到我自己的手、张开手指让几何形状匹配杯子、触碰正确的着力点——所有这些都是深度空间性的。我在尝试用语言叙述这个过程,但另一方面,那些叙述的语言本身并不能帮你真的拿起一个杯子。"
4. 当5.4亿年遇上50万年:视觉为何被低估
"作为一个视觉科学家,我总是发现视觉被低估了,"李飞飞说,"因为它对人类来说太轻松了。你作为婴儿睁开眼睛,就开始看这个世界。我们似乎天生就拥有这种能力。"
学习语言则不同——你必须付出努力学习如何书写、如何运用语法、如何表达。"这让它感觉很难。而大自然花了更多时间去优化的东西——感知和空间智能——却被人类低估了。"
她给出了一个时间尺度的对比:视觉和空间智能经过了5.4亿年的进化优化;而语言发展最宽泛的估计,大概只有50万年。
"今年夏天我刚去过非洲,"她说,"那些小动物,出生后几分钟内就必须站起来行动,否则就会被狮子抓住。在自然界,你知道进化花了5.4亿年来优化感知和空间智能。"
5. Marble:窥见World Labs模型能力的第一扇窗
"Marble是我们模型的一瞥,"李飞飞解释说,"它是这段旅程的起点。它是世界上第一个以这种保真度生成3D世界、并交到公众手中的同类模型。"
与许多其他世界基础模型不同——包括World Labs自己的实时帧模型RTFM——Marble让用户生成持久的世界,并将其下载为3D模型,而非即时生成。这意味着你可以精确控制摄像机位置、录制场景、编辑特定元素。
"我注意到一个非常有趣的工具——你可以在场景内部录制,"播客主持人指出。李飞飞立刻解释了其中的含义:"能够录制意味着对摄像机位置的精确控制。要有精确的摄像机位置,就必须有三维空间感。否则你不知道如何定向摄像机、如何移动摄像机。这是这类模型的自然结果。"
Johnson补充了技术细节:Marble原生输出的是高斯散点(Gaussian splats)——一种用大量半透明小粒子来表示三维场景的方法。假设把一个场景"打碎"成几百万个彩色小光斑,每个光斑都有自己在空间中的位置、朝向和颜色,亮度从中心向边缘逐渐衰减,无数光斑叠加在一起就还原出完整的三维世界。这种表示方式的优势在于渲染速度极快,在iPhone上也能实时显示,在VR头显中也能流畅运行。
"我们也可以导出为其他格式——三角形网格、视频——"Johnson说。三角形网格是3D图形的另一种经典表示方式,用无数个小三角形拼接成物体表面,是游戏引擎和电影特效行业的通用格式。"这很酷,因为你可以把这些3D资产放入各种传统工作流。你可以把三角形网格放进游戏,把高斯散点用于VFX镜头的合成。"
6. 模型"理解"物理吗?——一个需要谨慎使用的词
播客中提到了一篇哈佛论文,研究者向LLM输入大量轨道运动模式,然后让模型预测行星绕太阳的轨道。模型生成的结果看起来很好,但当你要求它画出力的矢量时,一切都变得混乱——它并没有真正学会牛顿力学。
这个例子揭示了一个关键问题:模型可以通过学习大量数据来"模仿"正确的结果,但这不等于它理解了背后的规律。行星轨道是椭圆形的,这一点模型可以从数据中学到;但"为什么是椭圆形"——因为引力与距离平方成反比——这个因果关系模型并没有掌握。所以当你问一个它没见过的问题(比如画出任意时刻的力的方向),它就露馅了。
"如果你用'理解'这个词来指你所理解的方式,"李飞飞说,"我相当确定模型并不理解。模型是从数据中学习,从模式中学习。"
但这是否重要?
"至少对于目前的用例来说,我认为不重要——假设它渲染出你需要的东西是完美的,"她继续说,"问题在于使用场景。如果用例是生成虚拟电影或制作的背景,你只需要看起来合理的东西,那可能不重要。但如果你是建筑师,要用这个来设计一座真正要建造的建筑,那就确实重要了——你需要正确地建模力,不希望建成后东西塌掉。"
Johnson指出了另一个关键差异:"这些模型是一种与人类智能非常不同的智能形式。人类智能的有趣之处在于,我能在某种程度上反省自己的思维过程,然后我相信我的思维过程可能与其他人相似,所以当我观察别人的行为时,我推断他们的内部心理状态可能与我观察到的自己的内部状态相似。"
"但这些模型像是一种外星形式的智能——它们能做真正有趣的事情,展现真正有趣的行为。但不管它们有什么内部认知或内部自我反思的等价物——如果存在的话——都与我们做的完全不同。"
7. 学术界的资源失衡:一个比"开放vs封闭"更重要的问题
播客主持人问了一个尖锐的问题:在今天的商业压力下,你还能重做ImageNet吗?当你融了那么多钱,如果你有最好的数据集,你有什么动机去公开它?
"我确实有担忧,"李飞飞回应,"但不太是关于压力,更多是关于学术界资源的失衡。"
这是一个与World Labs公司无关的话题。作为斯坦福大学"以人为本AI研究院"的创始联合主任,她一直在与政策制定者合作,推动公共部门和学术界AI研究的资源投入。她与特朗普第一届政府合作推动了国家AI研究资源(NAIR)法案,旨在建立国家AI计算云和数据仓库。
"我认为问题不在于开放vs封闭、产品化vs开源,"她说,"问题是学术界本身严重缺乏资源,研究者和学生没有足够的资源来尝试这些想法。"
Johnson从另一个角度补充了这个讨论:"五到十年前,你确实可以在实验室里用几块GPU训练最先进的模型。但因为那项技术如此成功、规模扩展得如此之大,你现在不能用几块GPU训练最先进的模型了。这不是坏事,这是好事——意味着技术真的奏效了。"
这意味着对学术界角色的重新定位。"不应该是试图训练最大的模型、扩展最大的东西。应该是尝试疯狂的想法、新想法、古怪的想法——大部分不会成功。我认为那里有很多可做的事。"
8. Transformer的真实身份:不是序列处理器,而是集合处理器
在被问到空间智能是否需要彻底抛弃当前的技术栈时,Johnson给出了一个出人意料的回答。
"我认为Transformer实际上不是序列模型,而是集合(set)模型。"
这听起来反直觉——ChatGPT明明就是一个词接一个词地生成文本,怎么不是处理序列的?
Johnson的论证是这样的:Transformer内部有两类操作。第一类是"逐token操作",比如前馈网络(FFN)、QKV投影、层归一化,这些对每个token独立进行,根本不关心其他token的存在,就像给一堆苹果逐个打蜡,每个苹果的处理互不影响。第二类是token之间通过注意力机制(Attention)的交互,但这个操作有一个关键的数学性质:置换等变(permutation equivariant)——如果你把输入的token顺序打乱,输出也会以完全相同的方式被打乱。注意力机制只关心"谁和谁在交互",不关心"谁排在前面"。
那Transformer为什么能处理语言这种明显有顺序的东西?答案是位置编码(Positional Encoding)——一个额外"贴"上去的信息,告诉模型"这个token在第1位""那个token在第5位"。没有位置编码,Transformer根本分不清"我爱你"和"你爱我"。
换句话说,Transformer的"核心引擎"本身是处理集合的,序列处理能力是通过位置编码这个"外挂"实现的。
这个技术细节之所以重要,是因为它回答了一个实际问题:现有架构能不能用来处理三维空间数据?如果Transformer本质上是"序列处理器",处理3D数据就很别扭——三维空间不是一条线,怎么强行排成序列?但如果它本质上是"集合处理器",问题就简单了:三维空间中的一堆点、一堆高斯散点,本来就是一个集合。只需要设计合适的位置编码来表达三维坐标关系,现有技术栈的很大一部分就可以直接复用。
这就是为什么李飞飞说"注意力机制还在,不需要修复没坏的东西"。
但Johnson也指出了一个更长远的问题。今天的神经网络架构是围绕矩阵乘法设计的,因为GPU特别擅长做矩阵乘法。但硬件的扩展正在接近物理极限——"即使从Hopper到Blackwell,每瓦性能几乎没变。他们主要是增加晶体管数量、增大芯片尺寸、增加功耗。"(Hopper和Blackwell是NVIDIA两代GPU架构的代号,分别对应H100和B200系列显卡。)
当单卡性能无法继续提升时,扩展的方式就变成了堆更多卡。计算的基本单元不再是单张GPU,而是由成千上万设备组成的分布式集群。Johnson的问题是:如果硬件形态变了,是不是应该有与之匹配的新计算原语和新架构?
"这种问题不是三个月能解决的,"他说,"但如果你坐下来花几年时间认真思考,也许能取得突破。这正是学术界完美匹配的长期研究方向。"
9. 空间智能与语言智能:互补而非替代
播客主持人追问:视觉和语言建模真的那么不同吗?DeepSeek最近尝试了一个疯狂的做法——直接从像素建模文本,直接在上面训练,这可能是未来的方向。
这里需要解释一下"从像素建模文本"是什么意思。传统语言模型的工作方式是把文字切分成token(比如把"我爱你"切成"我""爱""你"三个符号),每个token对应一个数字ID,模型学习这些ID之间的关系。但DeepSeek-OCR等研究尝试了完全不同的路径:把文字渲染成图片,让模型直接从像素学习语言,彻底绕过token这一层。Andrej Karpathy(特斯拉前AI总监、OpenAI创始团队成员)对这个方向大加赞赏,认为像素输入可能比传统token更优——压缩率更高、上下文窗口更短,还能保留字体、颜色、排版等传统token会丢失的格式信息。
如果这条路走通,是不是意味着视觉和语言可以统一处理?主持人的问题正是在追问这一点。
"我认为它们是不同的,"李飞飞坚持说,"我确实认为这些生成模型的架构会共享很多可分享的组件,但深度三维四维的空间世界有一种结构层次,与纯粹的一维生成信号根本不同。"
她的意思是:即使你可以把文字变成像素来处理,文字本质上还是一维的序列——一个字接一个字。而真实的三维世界有完全不同的结构:上下左右前后的空间关系、物体之间的遮挡、物理规律的约束。换一种编码方式,并不能消除这种根本性的结构差异。
Johnson则从另一个角度切入,他称之为"像素极大主义":"语言看起来是一种独立的东西,但我们终究是用眼睛在看语言。我们视网膜上的感光细胞,本质上就是生物版的像素传感器。我们看着文字,觉得它是一串离散的符号,但这种感觉只存在于我们的头脑中。文字在物理世界中的真实存在方式,是印在纸上、显示在屏幕上的图案——我们用眼睛看到的,其实是图像。"
这个观点需要停下来想一想。当你阅读这行文字时,物理上到底发生了什么?屏幕上的像素发出光,光进入你的眼睛,视网膜上密密麻麻的感光细胞——大约1.2亿个——各自捕捉一小块光信号,转化成神经脉冲传给大脑。对眼睛来说,"这是一个汉字"和"这是一张风景照"没有任何区别,都是一片光点的图案。把光点解读为"文字"还是"图片",是大脑做的事,不是眼睛看到的物理现实。
Johnson想说的是:既然人类本来就是用"看图"的方式在阅读文字,为什么AI非要先把文字切成token?直接让模型看图,不是更接近人类处理信息的方式吗?而且切成token确实会丢东西——同样一句话,用宋体印刷还是用手写体,排成一行还是分成两段,某个词加粗还是标红,这些视觉信息在token序列里全都消失了,但在像素图像里完整保留着。
但这不意味着要抛弃语言模型。"即使你那样做——也有一种实用性的考量:人们使用语言,人们想用语言与系统交互。即使从实用角度,构建让人们能与之交谈的系统、产品、模型也是有用的。我不认为那会消失。"
李飞飞补充说:"甚至我们的模型Marble今天也把语言作为输入——它是深度多模态的。在很多用例中,这些模型会协同工作。也许有一天我们会有一个通用模型。"
这段讨论的深层问题是:AI应该在什么层次上理解世界?纯语言模型在最高层次的符号抽象上工作;从像素建模文字往下走了一层,但信息本质上仍是一维的;而空间智能要做的,是直接在三维物理世界的层次上工作——那里有语言无法完整捕捉的结构、关系和规律。这也是为什么李飞飞要创建World Labs,而不是继续在语言模型的路上走下去。
10. 从创意工具到机器人训练:Marble的应用版图
如果你访问World Labs的主页,有一个叫做Marble Labs的页面,展示了不同的用例——视觉效果、游戏、模拟。在模拟类别中,他们展示了这项技术如何帮助机器人训练。
"机器人训练真的缺乏数据,"李飞飞解释说,"高保真的真实世界数据绝对至关重要,但你就是得不到大量那样的数据。另一个极端是纯粹的互联网视频数据,但你缺乏训练具身智能体所需要的可控性。所以模拟和合成数据实际上是一个非常重要的中间地带。"
她在这个领域工作多年,最大的痛点一直是:从哪里获得这些合成模拟数据?你必须策划资产、构建这些复杂的场景,而在机器人学中你需要大量不同的状态。Marble实际上是一个有潜力帮助生成这些用于具身智能体训练的合成模拟世界的工具。
Johnson则开玩笑说他在Slack上发过一个视频:"谁想用Marble规划下一次厨房改造?这个用例其实已经很好用了。只要拍两张你厨房的照片,在Marble中重建它,然后用编辑功能看看如果换台面、换地板、换橱柜,那个空间会是什么样子。"
"我们有早期测试用户正在用API构建室内设计用例,"李飞飞补充道。
Q&A核心归纳
Q1:空间智能与语言智能的核心差异是什么?
空间智能是机器感知、推理、移动和交互于三维空间的能力。语言是一个低带宽、有损的通道——你可以尝试用语言叙述拿起一个杯子的过程,但那些叙述本身无法帮你真正拿起杯子。自然界花了5.4亿年进化优化视觉和空间智能,而语言发展最多只有50万年。当今的大语言模型直接跳到了最高层次的抽象推理,而空间智能是要打开那个黑箱,承认我们在直接跳到完全抽象的语言和推理形式时可能丢失了什么。
Q2:World Labs的世界模型与其他视频生成模型有何不同?
关键区别在于"持久性"和"可控性"。Marble生成的是持久的、可下载的3D环境,而非即时生成即消失的世界。你可以精确控制摄像机位置和角度,可以录制场景,可以编辑特定元素——这些都源于模型对三维空间的理解。输出格式包括高斯散点(用大量半透明粒子表示三维场景)和三角形网格(用小三角形拼接成物体表面的传统3D格式),可以无缝集成到游戏引擎、VFX工作流中。这是"空间一致性"与"帧序列生成"的根本区别。
Q3:现有的AI技术栈能否用于空间智能,还是需要推倒重来?
不需要推倒重来。Transformer的核心架构本质上是处理"集合"而非"序列"的——它对顺序的感知完全依赖额外添加的位置编码。这意味着只要设计合适的三维位置编码,现有架构就能处理空间数据。但长远来看,随着硬件从单GPU向大规模分布式集群演进,可能需要探索与新硬件形态更匹配的计算原语和架构——这类需要数年时间的基础研究,正是学术界应该承担的角色。
好文章,需要你的鼓励
这份由MIT NANDA项目团队完成的研究报告揭示了企业AI应用的真实现状。报告基于对52家企业的深度访谈、300多个公开AI项目的分析以及153位高管的问卷反馈,发现尽管企业在生成式AI上投入了300-400亿美元,但95%的组织没有看到任何投资回报。只有5%的企业成功跨越了"GenAI鸿沟",创造了实际价值。
这项研究开发了CaptionQA系统,通过测试AI生成的图片描述能否支持实际任务来评估其真正价值。研究发现即使最先进的AI模型在图片描述实用性方面也存在显著不足,描述质量比直接看图时下降9%-40%。研究涵盖自然、文档、电商、机器人四个领域,为AI技术的实用性评估提供了新标准。
以色列理工学院研究团队提出了一种将专家混合模型融入YOLOv9目标检测的创新方法。该方法让多个专门化的YOLOv9-T专家分工协作,通过智能路由器动态选择最适合的专家处理不同类型图像。实验显示,在COCO数据集上平均精度提升超过10%,在VisDrone数据集上提升近30%,证明了"分工合作"比单一模型更有效,为AI视觉系统提供了新思路。