没有空间智能,AI一定是不完整的,李飞飞最新访谈:语言在自然世界中并不存在,世界模型将让人类在多元宇宙中生活 原创

李飞飞的World Labs以"空间智能"重新定义AI,专注3D物理世界理解,4个月估值飙至10亿美元,获科技巨头集体押注。她揭示语言无法编码物理世界,而DNA双螺旋等突破性发现都源于三维空间的深度认知。

斯坦福大学教授、World Labs联合创始人兼CEO李飞飞最近连续接受了a16z和No Priors两个科技投资播客的访谈。我比较了一下,两期播客中,李飞飞都详细介绍了自己的AI愿景,但相对而言,a16z讲得更系统,No Priors这期则谈得个人化。在a16z节目中,与她对话嘉宾之一是a16z普通合伙人Martin Casado,他不仅是World Labs的早期投资者,也是李飞飞创业团队的兼职成员,据说经常去公司上班。我接下来,着重介绍一下a16z这期访谈。

没有空间智能,AI一定是不完整的,李飞飞最新访谈:语言在自然世界中并不存在,世界模型将让人类在多元宇宙中生活

在2024年9月,李飞飞的神秘初创公司World Labs正式浮出水面,宣布完成2.3亿美元融资,估值超过10亿美元。这家公司从成立到独角兽仅用了4个月时间——2024年4月成立时估值2亿美元,7月就飙升至10亿美元。

投资阵容也堪称豪华:a16z的Martin Casado和Sarah Wang、NEA的Scott Sandell、Radical Ventures的Jordan Jacobs领衔机构投资,Salesforce CEO Marc Benioff、Google的Jeff Dean和Geoffrey Hinton、LinkedIn联合创始人Reid Hoffman、前Google CEO Eric Schmidt等名人集体参与。连英伟达、AMD、Intel的企业风投部门都选择押注。

不过,真正让World Labs引起关注的不仅是融资数字,而是其技术愿景的差异。在AI圈主要在追逐大语言模型的能力边界时,李飞飞选择了一条截然不同的道路:专注于"空间智能"——让AI理解3D物理世界的运作方式。

这种技术路径的选择背后,是李飞飞对智能本质的重新定义:语言虽然是思想的强大编码,但它并非物理世界的有效编码,从DNA双螺旋的发现到现代机器人技术,真正的智能突破往往发生在三维空间的理解和操作层面。所以,李飞飞认为,现有生成式AI模型输出的图像和视频无法给你足够的关于3D世界如何构建的整体感知。

当然,有这种看法的也不知是李飞飞,杨立昆也多次强调大语言模型无法通往AGI。

通过访谈,我感觉李飞飞的World Labs还不仅仅是重新定义AI,因为其最终目标是让人类能够创造无限的虚拟宇宙,实现从单一现实向多元宇宙的存在方式转变。某种程度上,这也是对"现实"概念的重新定义。

在No Priors的访谈,当被问及想要体验什么样的世界时,李飞飞的答案就非常有趣,说她喜欢看到我看不到的世界。例如,放大到微观世界,或者……进入引擎内部,了解引擎的实际运作。她说:我当然从理论上知道它是如何工作的,但用我自己的眼睛看到它、体验它是另一回事,你可能会笑这个想法——但我想在洗碗机里面,体验那是什么(视觉)感觉。

一、AI教母的技术哲学:数据驱动革命的延续

没有空间智能,AI一定是不完整的,李飞飞最新访谈:语言在自然世界中并不存在,世界模型将让人类在多元宇宙中生活

整场对话由a16z普通合伙人Erik Torenberg主持。Erik Torenberg请Martin Casado代为介绍李飞飞的贡献时,他选择了一个独特的角度。在那些显而易见的成就——Google高管、World Labs创始人兼CEO——之外,Martin强调了一个更为根本的贡献:"李飞飞真正独特地将数据引入了AI等式中,而现在我们认识到这实际上是更大的问题,更有趣的问题。"

这个评价并非夸大。在深度学习革命的早期,当大多数研究者专注于让神经网络更加有效时,李飞飞看到了一个被忽视的关键要素:数据的质量和规模。她主导创建了Caltech 101、ImageNet数据集,成为了整个计算机视觉领域的基石,推动了从AlexNet到ResNet等一系列突破性架构的诞生。

在No Priors访谈中,她详细介绍了数据项目的起源,那是在2003年左右,"世界刚刚开始触及互联网的表面,数据还不是什么大事"。当时她的PhD工作专注于物体识别——"识别猫、狗、微波炉、椅子等等的问题"。

李飞飞描述了当时的困境:"我们开始假设数据很重要,但我们不知道会怎样。(还)没有缩放法则(Scaling Law),我们不知道数据能走多远。"她们只是简单地认为,如果有机器学习算法——"无论是神经网络还是贝叶斯网络(当时很流行)或支持向量机,我们需要一些数据来训练,但没有数据可以训练。"

项目的转折点来自她的导师Pietro的建议:"Pietro说,'飞飞,策划一个数据集吧。'"李飞飞当时想:"是的,我确实需要策划一个数据集,因为(当时)每个数据集都太小了。"

最开始的工作是Caltech 101 ,共包含总共 9,146 幅图像,分为 101 个不同的对象类别( 面孔 、 手表 、 蚂蚁 、 木偶等)和一个背景类别。与图像一起提供的还有一套注释 ,描述了每幅图像的轮廓,以及用于查看的 Matlab 脚本 。

李飞飞在她的自传《The Worlds I See》中写过这个过程,提到她"偶然发现了一本词典",这本词典"随机地有一些单词的视觉描述"。她从中"抓取了101个词语"。

不过,数据收集的困难超出了想象:"我仍然记得我从Google下载或尝试获取数据,Google在那时是如此新。Google图像搜索在那时是如此糟糕,与今天相比。我必须做如此多的清理。"

最令人感动的细节是,她甚至"让我妈妈做图像清理,因为我在电脑上写了一个小软件界面。虽然她不懂电脑,但至少她知道点击(图像)"。

李飞飞坦言,尽管她是将数据驱动方法引入AI的先驱,但她仍然"继续在情感上感到惊讶,数据饥渴的材料、数据驱动的AI能够走到这一步,真正具有思维机器的令人难以置信的涌现行为。" 这种惊讶并非技术无知,而是对智能复杂性的深度敬畏。

因此,对于创业她的思考路径非常清晰:"不是我醒来就说我必须做一家公司。我日复一日地醒来,过去几年一直在思考,语言之外还有很多东西。" 这种思考导向最终指向了一个关键洞察:语言虽然是思想和信息的强大编码,但它实际上不是3D物理世界的强大编码。这个认知差距,正是World Labs要解决的核心问题。

当Martin Casado描述他们初次在Mark某个高端午餐会上的相遇时,这种哲学追求得到了完美体现。在众人兴奋地讨论LLM和语言时,李飞飞悄悄对Martin说:"你知道我们缺少什么吗?我们缺少一个世界模型。"接下来,我们讲李飞飞如何找投资人了。

二、寻找理想投资人:技术深度与商业洞察的结合

李飞飞在选择投资人时展现出的策略性思考,反映了World Labs项目的复杂性和野心。她坦言自己在寻找"独角兽投资人"——这个自创的概念精准地概括了她的需求。

这种投资人必须具备多重身份:既是成功的投资者,能够在创业旅程的起伏中与企业家同行,又是深度的技术专家,"是计算机科学家,是AI的学生,理解产品市场、客户获取和市场推广"。更重要的是,能够"每天每时每刻都可以通过电话或面对面地作为知识伙伴"。

Martin Casado恰好符合了所有这些要求。作为在斯坦福完成博士学位的计算机科学家,他不仅拥有深厚的技术背景,更有着成功的创业和投资经历。他们相识超过十年,从李飞飞 2009年作为年轻助理教授加入斯坦福时起,这种长期的信任关系成为合作的基础。

更有趣的是两人思想同步的过程。Martin回忆说,在那次关键的午餐会之前,他已经通过大量投资得出了独立结论:LLM不是故事的终点。当李飞飞提出"世界模型"概念时,他立即产生了共鸣:"以某种方式,我们在各自扭曲的道路上达到了非常相似的直觉。她的想法要完整得多,我的只是某种模糊的想法。"

但为了验证思想契合度,李飞飞做了一个巧妙的测试。她邀请Martin到斯坦福校园喝咖啡,直接要求他定义什么是世界模型。Martin的回答让她印象深刻:"一个真正理解世界3D结构、形状和组合性的AI模型"——这正是她想要表达的核心概念。

这种验证过程揭示了一个重要事实:在当时的投资和技术圈中,真正理解世界模型概念的人极其稀少。李飞飞坦承,"说实话,大多数人都不理解。当我说世界模型时,他们点头,但我可以感觉到那是礼貌的点头。"这种理解上的稀缺性,让Martin的加入显得更加珍贵。

这段合作关系的建立过程,实际上预示了World Labs面临的挑战:他们要解决的问题如此前沿,以至于连概念本身都需要重新教育市场

三、超越语言的局限:为什么空间智能是智能的关键组件

当Erik Torenberg具体询问李飞飞为什么LLM还不够时,李飞飞解释:"语言是思想和信息的令人难以置信的强大编码,但它实际上不是3D物理世界的强大编码。"

这个洞察建立在对人类智能和动物进化的深度观察之上。李飞飞指出,如果审视人类智能,很多都超出了语言的范畴。语言虽然重要,但它是"捕捉世界的有损方式",更重要的是,"语言是纯粹生成的,语言在自然界中并不存在。"

这种哲学思考具有深刻的生物学基础。当我们环顾四周时,看不到音节或单词,而整个物理感知视觉世界就在那里。动物的整个进化史都建立在"感知和最终具身智能"之上。人类不仅生存、生活、工作,更重要的是"我们通过构建世界和改变世界来建立文明"。

Martin Casado通过一个简单而有力的思想实验说明了这个差异。他描述道:"如果我把你放在一个房间里,蒙住你的眼睛,只是描述房间,然后要求你执行任务,你能够完成的概率很小。" 即使详细描述"前面10英尺有一个杯子,左边是这样的",这种基于语言的信息传递"是传达现实的非常不准确的方式,因为现实太复杂、太精确了"。

相比之下,如果摘掉眼罩直接看到空间,"你的大脑正在做的实际上是重建3D,然后你实际上可以去操作和触摸东西"。这个对比清楚地表明,在处理高层次想法和交流时我们使用语言处理,但当涉及导航真实世界时,我们真正依赖的是世界本身以及我们重建世界的能力

这种认知差异在进化时间线上也得到了体现。Martin指出了一个关键的进化悖论:尽管我们在机器人技术上投入了巨大努力(仅自动驾驶汽车就投资了1000亿美元),语言模型却首先取得了突破。这看似违反直觉,但实际上揭示了一个深层规律。

正如李飞飞所解释的,"我们大脑中处理语言的部分实际上是相当新近的,所以我们在这方面实际上相当低效"。因此计算机在语言处理上超越人类并不令人惊讶。但大脑中进行导航的部分、空间部分已经存在了数百万年,甚至可以追溯到爬行动物大脑,有5亿年的历史。这意味着我们实际上是在"展开进化",而空间智能代表着更为古老和根本的智能形式。

这种分析为World Labs的使命提供了强有力的理论基础:他们要解决的不是一个技术问题,而是智能的核心组件之一

四、从DNA双螺旋到巴克球:空间智能驱动的科学发现

李飞飞用两个经典的科学发现案例,生动地说明了空间智能在人类最高水平智慧活动中的核心作用。这些例子不仅展示了3D思维的重要性,更揭示了为什么仅仅依靠语言模型无法达到真正的智能。

DNA双螺旋结构的发现是她提到的第一个案例。这个改变生物学和医学历史的发现,核心在于对"3D空间中双螺旋"的理解。李飞飞强调:"绝对没有办法仅仅使用语言来推理出这个结构。" 这个观点击中要害——即使是最强大的语言模型,也无法仅通过文字描述来构想出DNA的精确三维结构。

第二个案例是巴克球(Buckyball),她称之为"我最喜欢的科学例子之一"。这种碳分子结构"如此美丽地构建",其发现同样依赖于对三维空间关系的深度理解。这些例子共同说明了"空间和3D世界是多么令人难以置信的深刻"。

这些科学发现的共同特点是:它们都需要研究者在心智中构建和操作复杂的三维模型。这种能力不能简化为语言处理,而是需要一种根本不同的认知机制——空间智能。正是这种智能形式,使得人类能够在从"古老动物一直到人类最具创新性的发现"的广泛范围内取得突破。

这种分析进一步支持了李飞飞的核心论断:空间智能是"智能的关键组成部分"。它不是可有可无的补充能力,而是智能系统必须具备的基础能力。无论是动物的基本生存导航,还是人类的顶级科学发现,都离不开对三维空间的理解和操作。

这些科学案例还揭示了另一个重要洞察:最具突破性的人类智慧活动往往发生在语言无法充分描述的维度。DNA的双螺旋结构、巴克球的精巧几何形状,这些都需要超越语言的认知能力。这进一步证明了World Labs选择的技术路径不仅是正确的,而且是必要的。

从更深层次来看,这些例子展示了空间智能与创新发现之间的内在联系。真正的科学突破往往需要在心智中重新组织和操作复杂的空间关系,这正是当前AI系统所缺乏的能力。World Labs要构建的世界模型,正是要赋予机器这种在三维空间中进行创造性思维的能力。

五、多元宇宙愿景:从单一现实到无限虚拟世界

李飞飞描绘的未来愿景具有令人震撼的宏大性。她指出了人类文明史上的一个根本性限制:"在整个人类文明中,我们作为人类集体都生活在一个3D世界中,那就是地球的物理3D世界。" 虽然少数人登上了月球,但这仍然是"一个世界"的概念。

然而,数字虚拟世界的出现将彻底改变这种局限。通过World Labs开发的技术——她称之为"生成和重建的结合"——人类将能够创造出"无限的宇宙"。这些宇宙将服务于不同的目的:"有些用于机器人,有些用于创意,有些用于社交,有些用于旅行,有些用于讲故事。"

这种技术突破将"突然使我们能够以多元宇宙的方式生活",李飞飞认为这种可能性的"想象力是无穷的"。这不仅仅是技术演进的自然结果,更是对人类存在方式的根本性扩展。

Martin Casado通过具体的技术描述,让这个愿景变得更加具体可感。他解释说,这些模型能够"接受世界的一个视图,比如世界的2D视图,然后实际上创建一个完整的3D表示,包括你看不到的东西,比如桌子的背面"。这种能力使得计算机可以"操作它、移动它、测量它、堆叠它"——任何你在空间中能做的事情,都可以数字化实现。

更重要的是生成能力的突破。填充桌子背面的能力意味着你可以填充从未存在过的东西。这意味着仅仅从一张2D图片,就可以"创建一个360度的一切视图",实现"完全生成性"的创造。这种技术的应用范围是"超级、超级水平的",涵盖从"机器人技术到视频游戏到艺术和设计"的广泛领域。

这种愿景的实现将带来创意工作的革命。"创意是非常视觉化的",从设计到电影,从建筑到工业设计,"创意不仅仅是为了娱乐,它可以用于生产力、机械以及许多事情"。这些都是"高度、高度视觉化的感知空间区域或工作领域"。

机器人技术也将获得根本性提升。在李飞飞的定义中,"机器人对我来说是任何有身体的机器,不仅仅是人形机器人或汽车"。所有这些机器都必须"以某种方式理解它们生活的3D空间,必须被训练来理解3D空间,并且有时甚至必须与人类协作地做事情,这需要空间智能"。

这种多元宇宙愿景的核心在于技术能力的水平化特征。正如Martin所说,这是一个"非常具体的、关键的东西",它使"基本上一台具有世界单一视图或多视图的计算机创建一个完整的3D表示,然后该计算机可以对其采取行动"。这种能力的广泛适用性,正是它能够支撑多元宇宙愿景的基础。

六、立体视觉的缺失:一次意外伤害带来的深刻洞察

访谈中,李飞飞还分享了一个极其个人化但具有深刻科学意义的经历,为3D视觉的重要性提供了最直观的证明。大约五年前,由于角膜受伤,她失去了立体视觉几个月,这意味着她只能用一只眼睛观看世界。

作为一名视觉科学家,这段经历为她提供了独特的实验机会。尽管她的大脑"一生都经过立体视觉训练",即使用一只眼睛看,她仍然能够"知道3D世界看起来是什么样子"。然而,这种基于经验的补偿并不能完全替代真正的立体视觉。

最触目惊心的体验是驾驶时的困难。她发现自己"害怕开车",首先是"无法上高速公路,那种速度我无法承受"。即使在熟悉的社区小路上驾驶,问题依然严重。她意识到自己"无法很好地测量我的车和停在小路上的邻居车辆之间的距离"。

这种困难的程度令人震惊。尽管她"对我的车有多大、邻居停放的车有多大有完美的理解,我认识这些道路很多年了",但在实际驾驶中,她"必须开得很慢,几乎每小时10英里,这样我就不会刮伤汽车"。

这个个人经历完美地说明了3D感知的不可替代性。即使拥有丰富的经验知识和对环境的熟悉程度,缺乏真实的深度感知仍然会导致基本空间任务的严重困难。正如她总结的:"这正是我们需要立体视觉的原因。"

Martin对这个故事的评价恰到好处:"这实际上是为什么3D在你进行某些处理时确实是关键的很好表达。" 这个真实的经历比任何理论论证都更有说服力地证明了3D感知对于空间任务的关键重要性。

这种个人体验与技术发展的联系是显而易见的。如果一个拥有丰富驾驶经验和空间知识的人类在失去立体视觉时都会遇到如此严重的困难,那么缺乏3D理解能力的AI系统在处理现实世界任务时的局限性就更加明显了。这为World Labs开发具备真正空间智能的AI系统提供了最有力的动机。

李飞飞半开玩笑地建议:"我不推荐这样做,但如果你在那里,用一只眼睛停车和开车,感受一下。" 这种建议背后是对空间智能重要性的深刻理解——只有亲身体验过3D感知的缺失,才能真正理解它的价值。

七、如何汇聚顶尖人才攻克前沿难题

当Erik Torenberg询问这个领域的研究现状时,李飞飞坦承这是一个"与LLM相比绝对较新的研究领域"。然而,她也澄清说"说全新并不完全公平,因为在计算机视觉领域,我们作为一个领域一直在做零散的工作"。

她详细介绍了几个关键的技术突破。首先是神经辐射场(Neural Radiance Fields,简称NERF),这项工作由World Labs联合创始人Ben Mildenhall和他在伯克利的同事们完成。这是"一种使用深度学习进行3D重建的方法,大约四年前真正席卷了世界"。

另一个重要贡献来自联合创始人Christoph Lassner的开创性工作,他的研究是高斯泼溅表示(Gaussian Splat representation)开始变得非常流行的部分原因,作为表示3D、体积3D的一种方式

第三位联合创始人Justin Johnson曾是李飞飞的学生,他"是第一代深度学习计算机视觉学生之一,在transformer出现之前,当我们使用GAN进行图像生成时,在图像生成方面做了很多基础工作,然后是风格转移"。这些早期工作"真正普及了我们在这里所做工作的一些组件或成分"。

李飞飞强调,虽然"学术界在发生事情,工业界也在发生事情",但World Labs的独特之处在于"我们有信念,我们将全力以赴解决这一个单一的大北极星问题"。这种专注体现在团队构成上:"世界上最聪明的人在计算机视觉、扩散模型、计算机图形学、优化、AI、数据方面。所有这些人都进入这一个团队,努力使这项工作成功并将其产品化。"

Erik Torenberg从外部观察者的角度提供了重要洞察。他认为"解决这个问题,你需要AI和图形学两方面的专家"。AI专家负责"数据和模型,比如实际的模型架构",而图形学专家则处理"如何在计算机内存中表示这些东西,然后在屏幕上显示"。

他总结说:"我认为这是一个非常特殊的团队,能够真正破解这个问题,李飞飞已经成功组建了这样的团队。" 这种跨学科的团队构建反映了问题本身的复杂性——空间智能的实现需要多个技术领域的深度整合。

World Labs的策略清晰地体现了李飞飞一直以来的哲学:专注于根本性问题,汇聚最优秀的人才,进行产业级的集中攻关。正如她所说,"集中的产业级努力、专注的努力,在计算、数据、人才方面真正是将其变为现实的答案"。这种方法不仅是技术选择,更是对当前AI发展阶段的深刻理解:某些突破需要超越学术研究的资源投入和工程集成能力

这种团队建设和研究策略的背后,是对技术发展时机的判断。正如李飞飞所说,虽然研究一直有趣,但"我确实意识到,特别是与Martin交谈后,时机已经到来"。这种时机感不仅来自技术成熟度,更来自对市场需求和产业发展的综合判断。

最后,让我们从全文总结出三组问答,作为结尾:

Q: 为什么空间智能比语言智能更重要?

A: 语言是思想的强大编码,但对3D物理世界而言却是"有损的编码方式"。人类大脑处理语言的部分相对年轻(发展历史较短),而空间导航能力可追溯到5亿年前的爬行动物大脑。从DNA双螺旋结构的发现到巴克球分子的构建,人类最重要的科学突破都无法仅靠语言推理完成,必须依赖空间智能在心智中构建和操作复杂的三维模型。

Q: 当AI具备空间智能后,世界会发生什么改变?
A: 人类将迎来从"单一现实"到"多元宇宙"的根本性转变。整个人类文明史上,我们都生活在地球这一个3D世界中。但空间智能技术将让我们创造无限的虚拟宇宙——有些用于机器人训练,有些用于创意设计,有些用于社交和讲故事。这种技术能让计算机仅从2D视图重建完整3D表示,实现对空间的操作、测量和重新组合,从根本上扩展人类的存在方式。

Q: 这种技术突破为什么现在才成为可能?

A: 技术发展遵循"反直觉"的路径——最容易的突破往往不是最重要的。语言模型率先成功恰恰因为人类在语言处理上相对低效,而空间智能困难正因其是更根本的智能形式。LLM的成功为空间智能提供了方法论启发,而算力、数据和工程能力的成熟让集中攻关成为可能。真正的突破需要跨越计算机视觉、深度学习、计算机图形学和优化等多个领域的深度整合。

来源:至顶AI实验室

0赞

好文章,需要你的鼓励

2025

06/09

16:32

分享

点赞