今天本来计划刊发一期黄仁勋的内容,因为昨天英伟达财报,照例黄仁勋也接受了一些采访,谈到了中国市场战略等话题。不过后来看到红杉资本的Training Data播客前天的一期节目,觉得更值得报道一下。因为谈的是目前较少谈及的话题:物理世界的AI。而且嘉宾比较特殊,红杉资本合伙人Sonya Huang和Pat Grady请的是P1.AI创始人兼CEO保罗·埃雷门科(Paul Eremenko)。
埃雷门科的履历也传奇:曾任美国国防部高级研究计划局(DARPA)项目主管,35岁时成为空客集团最年轻的首席技术官,现在则致力于将科幻小说中的梦想变为现实。他创立的公司P1.AI有一个雄心勃勃的目标:构建面向物理世界的工程AGI。
为什么说雄心勃勃,因为P1.AI的目标是让模型能够设计人类无法设计的系统,从星际飞船到戴森球。保罗·埃雷门科之所以选择在这个时机创业,是因为看到Anthropic、Cursor和Devon等公司已经在软件开发领域取得了突破性进展,但物理世界的硬件工程——无论是数据中心冷却系统还是飞机设计——尚未被AI从根本上改变。埃雷门科认为,现状能够改变,而且即将改变。
在对话中,他也讲了物理工程领域面临的核心挑战:训练数据稀缺。与软件领域拥有海量代码数据不同,物理产品的设计数据极其有限。以飞机为例,自莱特兄弟以来,全世界也许只有几千个飞机设计,远不足以训练大型模型。P1.AI的解决方案大家可能也听说过,即合成数据,基于物理学的合成数据生成:创建数百万个假想的但符合物理规律的设计,为AI提供学习素材。听到这里的时候,我感觉和黄仁勋去年开始谈的物理AI理念接近,英伟达在通过Omniverse和Cosmos两个平台做这件事情。
当然,埃雷门科也不只是说说,在节目中他介绍了公司第一个产品——AI工程师Archie。这个智能体被设计为能够加入工程团队,像初级工程师一样处理任务。从住宅冷却系统的概念验证开始,P1.AI计划逐步攀升复杂度阶梯:数据中心冷却系统(约1000个零部件)、工业系统、移动设备,最终达到航空航天级别(约100万个零部件)。
在讲埃雷门科的理念之前,我们还是插播一下黄仁勋财报采访的五个主要观点吧,毕竟是今天的大事件,而且也提到了机器人:
1. "四年前,英伟达在中国的市场份额大约是95%,而今天大约是50%,这都是因为我们所销售产品的限制。在接下来的四年总统任期内,我们谈论的可能是数千亿美元的英伟达收入损失。"
2. "中国市场不仅规模庞大,更关键的是它是全球50%的AI研究人员的家园。成功的平台是拥有最多开发者的平台,就像iPhone因为有很多开发者而成功,Windows因为有很多开发者而成功一样。我们希望世界上每一个开发者都更偏爱我们的技术栈。"
4."自动驾驶汽车已经就位,机器人技术绝对在接下来的三到四或五年内会实现。技术今天就能工作,一旦技术变得可行,工程师只需要几个开发周期就能将其转化为可以大规模生产的产品。"
14. "我们曾经是一家芯片公司,然后成为了系统公司,现在我们是一家完整的基础设施公司。当你有一个500亿美元的AI基础设施时,保持其高效运行所需的软件是无价的——如果利用率下降10%,那就损失50亿美元。软件现在是我们业务的巨大组成部分。"
接下来就是埃雷门科的观点记录。
一、物理世界工程AI的根本挑战:数据稀缺困境
在红杉资本的Pat Grady询问物理工程领域的AI发展现状时,埃雷门科的回答很干脆:"答案是几乎没有进展。"这个回答背后,是他对这一领域长期观察的结果。
埃雷门科坦言,作为一个在硬科幻小说中长大的孩子,他曾被承诺AI将帮助人类建设物理世界,最终实现星际飞船和戴森球的梦想。"当深度学习革命真正开始起飞时,我问了一个问题:谁在构建这些东西?谁在开发那种能帮助我们建设物理世界的AI?答案是没有人在做这件事。"
这种现状的根源在于一个基本问题:训练数据的极度稀缺。埃雷门科用飞机设计举例说明了这个困境的严重性。他解释道:"如果你想要一个AI工程师能够帮你设计飞机或修改飞机,当你问'如果我把A320的机翼面积增加10%会发生什么'时,为了能够回答这个问题,你的模型理想情况下需要在数百万个飞机设计上进行训练。"
然而现实是残酷的。"自莱特兄弟以来,根本没有数百万架飞机被设计出来,即使你神奇地获得了所有这些设计的访问权限——实际上你没有——即使它们都以连贯的、语义集成的方式建模——实际上它们也没有——但即使在假设情况下,自航空诞生以来,你可能也只有大约一千个设计。这远远不足以训练一个大型模型。"
这个数据稀缺问题不仅存在于航空领域,而是物理产品设计的普遍困境。与软件工程不同,软件代码可以在互联网上找到数以亿计的样本,物理产品的设计历史数据极其有限。每个新的物理产品都需要大量的工程投入,而且由于成本和时间限制,实际被制造出来的变体数量远少于理论上的设计空间。
这种数据稀缺性还带来了另一个问题:设计空间的复杂性。埃雷门科指出,大多数物理产品的设计空间几乎是无限大的。"你不能随机采样它,你不能均匀采样它,你必须非常巧妙地采样它。你想要在主导设计周围密集采样,但你想要在设计空间的角落和边缘稀疏采样。"
即使是设计空间边缘那些永远不会被采用的设计,也具有教育价值。"因为这教会了你一些东西,即使设计空间的那个角落边缘不是你想要去的地方,它也教会你的模型为什么会这样。"
埃雷门科认为,正是这个基础性的数据问题阻碍了物理世界AI工程的发展。而P1.AI的核心创新,就是要解决这个看似无解的困境。
二、合成数据革命:用物理学法则生成训练素材
面对传统训练数据稀缺的困境,P1.AI提出了一个创新解决方案:基于物理学的合成训练数据生成。这个方法的核心思想是,既然现实中的设计数据不够,那就创造出符合物理规律的假想设计。
埃雷门科详细解释了这个方法的工作原理:"最基础的技术积木就是创建这些训练数据集。它是合成的,是基于物理学的,是供应链信息化的假想设计,无论在什么物理产品领域——可能是飞机,也可能是其他东西。"
这种合成数据生成并非简单的随机组合。埃雷门科强调,必须让数据集"足够大且足够有趣"。由于大多数物理产品的设计空间几乎无限大,采样策略至关重要。"你想要在主导设计周围密集采样,但你想要在设计空间的角落和边缘稀疏采样,因为这教会了你一些东西。"
供应链信息化是这个方法的另一个关键要素。埃雷门科解释:"理论上,你的目录中的所有组件要么反映供应链中的真实组件,要么你可以引入假想组件。因为有时创新不仅仅是组装现有的东西,而是说,'嘿,我需要一个新电机,或者我需要一个新压缩机。'"
生成合成数据的过程包含几个关键步骤。首先需要创建一个组件目录,这个目录需要比典型系统设计大几个数量级。"如果你有一个包含100万个独特零件的系统,你的组件目录可能需要1亿或10亿个零件。"
接下来是智能组装过程。埃雷门科用一个生动的比喻来说明:"这不是龙卷风穿过废料场然后组装出一架747,而是你实际上有一些创建它的方法。"
最后一步是仿真和性能评估。每个生成的设计都必须经过仿真,获得性能向量,这样才能构成有效的训练数据集。
这种方法的优势在于可以大规模生成符合物理规律的设计样本,为AI模型提供足够丰富的学习材料。同时,通过控制采样策略,可以确保模型学习到设计空间中的关键模式和约束。
埃雷门科特别强调了物理基础的重要性:"基于物理学意味着组合这些组件的规则建模了你关心的所有相关交互模态、它们交互的现象学,并且产生的设计实际上是可实现的设计。"
这种合成数据方法不仅解决了数据稀缺问题,还为AI工程师的训练提供了前所未有的可能性。通过系统性地探索设计空间,AI模型可以学习到人类工程师可能需要数十年才能积累的经验和直觉。
三、Archie智能体:重新定义工程认知自动化
P1.AI的第一个产品是名为Archie的AI工程师智能体。这个名字的选择颇有深意——既代表了阿基米德(Archimedes)的智慧,也暗示了建筑师(Architect)的设计能力,同时以字母A开头也为未来的Bob、Charlotte、Daniel等智能体留下了扩展空间。
埃雷门科强调,Archie的设计理念是认知自动化,而不是工具替代。"我们专注于人类工程师在设计物理系统时所做工作的认知自动化,这是非常狭窄的关注点。"
人类工程师的工作可以分解为几个核心环节:首先是需求分析,从一堆需求中提炼出关键的设计驱动因素;然后是方案构思,提出一个或多个满足这些设计驱动因素的可能解决方案;接着是初步设计,进行一阶规模估算,确定答案大致的样子,以及相关的现象学分析;最后是详细分析,知道有哪些工具可用于详细设计和分析,了解这些工具的适用范围以及如何使用它们。
这些复杂的工程任务可以简化为几个基本操作:设计评估(给定一个特定设计,其性能如何)、设计合成(给定性能要求或需求向量,设计应该是什么样的)、以及错误查找和填充(在设计中发现错误并进行修正)。
Archie采用了联邦式架构,由多个专门的模型组成。埃雷门科解释:"我们使用一种联邦方法,包含一堆不同的模型,它们执行工程推理的不同部分,然后它们都由一种编排推理器LLM来协调,该LLP也充当用户的界面。"
这个架构包含了多种专门的模型:一个图神经网络充当基于物理学的性能空间代理模型;一个几何推理模型用于回答相对位置、打包和干扰等问题;还有一个"被阉割的LLM"——这是埃雷门科的幽默说法,指的是一个不再擅长英语但非常擅长物理系统设计的程序化表示和推理的模型。
与现有工具的协作是Archie设计的另一个关键特点。"我们不试图在工具层面竞争。存在现有的详细设计、分析和仿真工具,我们希望Archie知道如何使用这些工具,就像人类知道如何使用它们一样。但我们不试图替换工具,不试图让它更好,不试图与之竞争,不试图以任何方式取代它。"
这种定位使得Archie能够无缝集成到现有工程环境中。埃雷门科强调:"Archie被设计为加入团队并成为远程工程师。虽然没有实体化,但他会出现在Slack或Teams或您使用的任何协作工具上。您可以像对待初级工程师一样给他分配任务。"
目前,Archie已经在住宅冷却系统领域完成了概念验证。这个选择很有策略性:既足够复杂以展示多物理场能力(流体流动、气流、热交互、电气系统),又不会因为组件数量过多而陷入数据生成的泥潭。
从住宅冷却系统开始,P1.AI计划逐步向更复杂的系统进发。首个商业应用目标是数据中心冷却系统,这个市场面临着巨大的需求压力和工程师短缺问题。埃雷门科指出:"冷却系统就像长期交付项目,是数据中心开发的节拍器,这很疯狂。"
四、工程智能的评估体系:从布鲁姆分类法到工程AGI
如何衡量一个AI工程师的能力水平?这是P1.AI面临的关键挑战之一。埃雷门科和他的团队采用了一个创新的评估框架——基于布鲁姆分类法的工程智能评估体系。
布鲁姆分类法(Bloom's Taxonomy)是上世纪50年代开发的认知知识分类体系,近年来已被应用于LLM评估。P1.AI将其改造为适合工程任务的评估框架,构建了一个六层金字塔结构。
最底层是信息回忆能力,这相对简单直接。第二层是语义理解,除了回忆之外,还要理解"这个部件是做什么的"。第三层是设计评估能力,即能够评估设计或设计变更的影响,比如"改变这个组件的性能影响是什么"。
第四层是错误发现能力,即在设计中找到错误的能力。第五层是设计合成,能够合成全新设计或对现有设计进行重大更改。
最高层被称为工程AGI(E-AGI),其核心是反思能力。埃雷门科解释:"这是某种程度的自我意识——我刚才用什么过程来完成前面五个层次?我用了什么过程?这个过程的局限性是什么?有替代过程吗?我可能在哪里出错?"
这种反思能力"实际上大多数现场工程师都做得不太好,只有高级层次、专家或大型工业公司的技术研究员才具备"。对P1.AI来说,这代表了人类工程智能的巅峰——对工程过程自身局限性的自我意识。
除了这个垂直的能力层次外,还有一个水平的泛化维度:AI是否能够在没有专门训练的情况下跨领域泛化?埃雷门科认为,可以在一个轴上实现AGI,在另一个轴上实现AGI,或者在两个轴上都实现AGI。"选择你的毒药吧,我们希望两者都做到。"
为了实现这个评估框架,P1.AI开发了一套名为"Archie IQ"的评估系统。这套系统的目标是对不同水平的人类工程师——入门级、平均水平、专家级——以及Archie进行相同的测试,从而建立一个闭环改进过程,推动Archie沿着IQ量表向上发展。
这种评估方法的创新性在于,它不仅关注技术能力,更重视元认知能力——对自己思维过程的思考。这种能力往往是区分优秀工程师和普通工程师的关键因素。通过将这种高阶认知能力量化并纳入AI训练目标,P1.AI为工程AI的发展提供了一个清晰的路线图。
埃雷门科预计,到这期节目播出时,他们将发布一篇描述这套评估方法的学术论文,为整个行业提供工程AI评估的标准化框架。
五、复杂度阶梯:从千个零件到百万组件的征程
P1.AI的发展战略遵循一个清晰的复杂度递增路径,这个路径的设计基于对物理系统复杂性的深刻理解。埃雷门科将这个进程描述为"主要基于合成训练数据、基于物理学的合成训练数据复杂性"的递进。
公司的预期是每年向上攀升大约一个数量级的产品复杂性。这个时间表基于他们当前的技术发展轨迹和计算资源的增长预期。
具体的发展路径已经规划得相当清晰。第一站是数据中心冷却系统,这类系统大约包含1000个独特零件。这个选择不是偶然的——数据中心冷却系统仍然是热力学引擎,与住宅HVAC系统本质相似,但复杂度高出一个数量级,规模也大得多。
更重要的是,这个市场存在急迫的痛点。埃雷门科指出:"他们很难应对数据中心客户的需求。我们正处于这样一个时点:冷却系统成为了长期交付项目,成为数据中心开发的节拍器,这很疯狂。"这种市场需求为P1.AI提供了"非常热情的客户群体"用于早期部署。
第二个垂直领域是工业系统,包括进入工厂的设备——物料搬运设备、工业机器人、铣床、车床等。这些系统的复杂性又上升了一个数量级。
接下来是移动性领域,可能包括汽车、农业设备、采矿设备等。这些汽车和重型机械设备代表了更高的复杂性层次。
最终目标是航空航天和国防领域。埃雷门科用具体数字说明了这个复杂性阶梯:"数据中心冷却系统大约有1000个独特零件,飞机大约有100万个独特零件——它们之间有三个数量级的差异。"
这种递进式发展策略不仅是技术上的必然,也是商业上的明智选择。每个阶段都有相对应的计算资源需求。埃雷门科坦承:"今天我们无法为100万零件系统做到这一点,因为如果你想象一下,也许要回到Pat关于供应链部分的问题——我们如何创建这些合成数据集?"
创建合成数据集的挑战是巨大的。对于包含100万个独特零件的系统,"你的组件目录可能需要1亿或10亿个零件"。目前,P1.AI手工创建这些目录,但正在"构建大量自动化和大量实际AI工具"来帮助构建组件模型目录。
每个阶段的进展都需要克服特定的技术障碍。需要CPU计算来生成合成数据(大量仿真和采样),需要GPU计算来训练模型,还需要GPU计算来推理。"所有这些今天我们都无法为100万零件系统做到,但随着计算能力的增长和技术的改进,这个限制会逐步解除。"
埃雷门科强调,这种发展路径不需要根本性的研究突破:"不需要研究突破。我认为我们完全在应用研究领域内操作,我们采用前沿实验室正在进行的现有研究,并将其应用于我们的特定问题。"
这种工程化而非研究化的发展策略,使得P1.AI能够更可预测地执行其路线图,同时为客户提供实实在在的价值。
六、商业模式创新:卖工作而非软件
P1.AI的商业策略体现了对传统企业软件销售模式的深刻反思。埃雷门科明确表示,他们的目标是"向这些公司销售工作,而不是软件"。
这个策略背后有深层的商业逻辑。埃雷门科解释道:"向像空客这样的公司销售工程软件是非常困难的。生态系统中有数百个,如果不是数千个工程工具,它们以各种方式连接——客气地说是复杂的,有时是不优雅的,某种胶水软件的方式。将新工具引入该生态系统非常复杂。"
更重要的是,这些公司的预算结构偏向人力而非工具。"这些公司的劳动预算比方法和工具软件预算大得多。所以你想要解决劳动问题,而不是工具问题。"
因此,Archie被设计为数字员工而非软件工具。"Archie真正被设计为出现在团队中并成为远程工程师。显然没有实体化,但他出现在Slack或Teams或您使用的任何协作工具上。您像对待初级工程师一样给他分配任务,他恰好可能在海外工程中心。"
这种定位带来了几个关键优势。首先是部署摩擦最小:"将Archie引入组织的摩擦真的很小。您不需要做任何不同的事情。您不需要改变您的流程。您只是有这个成本更低的实体出现。"
其次是能力的差异化定位:"Archie可能在某些事情上更好,在其他事情上可能更差。但目标是将他定位为工人。"这种定位避免了与现有工具的直接竞争,而是补充现有工作流程。
P1.AI的初始市场策略也体现了这种思路。他们计划首先让"Archie被雇佣为入门级工程师",基于他们生产的非专有合成数据,达到"受过大学教育但在特定公司产品或一些深入流程和实践方面不是特别精明"的水平。
一旦建立了客户关系,就可以进入数据共享和定制化阶段:"然后我们与客户建立关系。我们有数据共享协议,所有这些都得到了整理。然后Archie可以开始学习防火墙后面的东西。"
这包括摄取客户的PLM系统、基于模型的工具和模型,以及"大量该系统的真实世界性能、质量逃逸"等数据。通过这种方式,"Archie可以相当快速地从入门级提升到平均水平再到专家级工程师的专业水平"。
公司的长远愿景是"世界上每个主要工业公司的每个团队都有一个Archie"。这种规模化的愿景反映了他们对市场潜力的信心,也暗示了未来可能的网络效应。
埃雷门科提到了一个有趣的可能性:如果每个团队都有一个Archie,"Archies能否在团队之间比人类更好地协调,并使用某种他们自己的速记"?这种AI间协作的可能性可能会带来比单纯人力替代更大的价值。
这种商业模式的创新性在于,它不是简单地用AI替代人类工具,而是重新定义了AI在企业中的角色——从工具变成了同事。
七、应对随机性挑战:工程安全的平衡艺术
当讨论到AI在物理工程中的应用时,一个核心担忧是随机性问题。红杉资本合伙人提出了一个尖锐的对比:"我可以随意编写一个网络应用,如果它坏了也没关系。但如果我随意编写一架飞机代码而它坏了,那就太糟糕了。"
埃雷门科的回应体现了工程师的实用主义思维:"人类也是相当随机的。如果你有一个初级工程师在处理任务,他们会犯错误。他们可能不会做正确的事情。他们可能不可重复。"
关键问题不是消除随机性,而是量化和管理错误率。"我们需要量化的问题,我们期望在今年晚些时候的试点中量化的是,Archie的错误率是多少?如果该错误率与人类工程师相当,那么现有工程组织中内置了很多检查和平衡,以确保初级工程师犯的错误不会导致飞机坠毁。"
这些多层保护机制包括审查层次、里程碑检查、测试环节等。埃雷门科强调:"有很多这样的层次。所以如果Archie的错误率相当或更好,那么它应该能够相当无缝地融入现有流程。"
这种方法的智慧在于利用现有的质量保证体系,而不是试图创造一个完美无缺的AI系统。在航空、汽车等安全关键行业,已经有成熟的工程实践来处理人为错误。只要AI的错误率在可接受范围内,现有的安全网就能发挥作用。
埃雷门科还提到了渐进式信任建立的策略。从数据中心冷却系统这样的非安全关键应用开始,逐步建立对AI工程师可靠性的信心,然后才进入航空航天等高风险领域。
这种处理随机性的方法也反映了P1.AI对AI能力边界的清醒认识。他们不是在承诺完美,而是在提供一个可控的概率改进。在工程领域,这种务实的态度往往比过度的技术乐观主义更有价值。
同时,这种方法也为未来的发展留下了空间。随着AI技术的改进和更多实际数据的积累,Archie的可靠性有望继续提升,逐步在更关键的应用中承担更重要的角色。
八、未来愿景:从工程效率到设计突破
在访谈的最后阶段,埃雷门科描绘了一个从近期实用主义到长远科幻梦想的完整图景。他坦言:"我对预测三年以上的任何事情都很谨慎,特别是在这些急剧指数式增长的时代。"
近期目标相对务实:每个团队都有一个Archie,占劳动力的10%。"他们做人类可能觉得无聊、沉闷、重复的工作。"可能还有额外的价值,比如"Archies之间的协调"等功能。
但埃雷门科的终极愿景远不止于此。"然后我可以想象一个超级智能,你告诉它'我想让你开始建造戴森球',它就开始建造戴森球。"中间的过程"很难预测"。
当被问及普通人如何感受到工程AGI的影响时,埃雷门科首先提到了成本降低:"对普通人来说,影响是更低成本的商品和产品。"当主持人开玩笑问"所以你是说我可以买一架飞机?"时,埃雷门科回答:"也许吧。"
真正激动人心的可能性在于超越人类能力的设计:"我认为真正有趣的事情开始于Archie能够设计我们无法设计的东西。这就是超级智能部分,不仅仅是关于现有组织的效率,或增加现有组织的带宽,而是真正设计科幻书籍中承诺给我们的东西。"
这些包括"星际飞船和戴森球和马特里奥什卡大脑"等概念。埃雷门科坦言:"所以最终,我是个梦想家。这就是我创办这家公司的原因。这就是我想要的未来。这正是指导我们的北极星。"
在技术发展的具体预测上,埃雷门科看好物理AI——不是P1.AI意义上的工程设计,而是机器人技术和"用于摄取真实世界传感器数据的基础模型"。他认为这两者都是P1.AI正在构建的重要组成部分,并且"非常接近"突破。
关于人形机器人,埃雷门科持乐观态度:"基于我们正在尝试构建能够融入现有团队的智能体的相同基础,我认为人形机器人能够更容易地融入现有环境,即使它们不是最优配置。"
好文章,需要你的鼓励
韩国科学技术院研究团队提出"分叉-合并解码"方法,无需额外训练即可改善音视频大语言模型的多模态理解能力。通过先独立处理音频和视频(分叉阶段),再融合结果(合并阶段),该方法有效缓解了模型过度依赖单一模态的问题,在AVQA、MUSIC-AVQA和AVHBench三个基准测试中均取得显著性能提升,特别是在需要平衡音视频理解的任务上表现突出。
这项研究利用大语言模型解决科学新颖性检测难题,南洋理工大学团队创新性地构建了闭合领域数据集并提出知识蒸馏框架,训练轻量级检索器捕捉想法层面相似性而非表面文本相似性。实验表明,该方法在市场营销和NLP领域显著优于现有技术,为加速科学创新提供了有力工具。
un?CLIP是一项创新研究,通过巧妙反转unCLIP生成模型来增强CLIP的视觉细节捕捉能力。中国科学院研究团队发现,虽然CLIP在全局图像理解方面表现出色,但在捕捉细节时存在不足。他们的方法利用unCLIP生成模型的视觉细节表示能力,同时保持与CLIP原始文本编码器的语义对齐。实验结果表明,un?CLIP在MMVP-VLM基准、开放词汇语义分割和视觉中心的多模态任务上显著优于原始CLIP和现有改进方法,为视觉-语言模型的发展提供了新思路。
这项研究介绍了RPEval,一个专为评估大语言模型角色扮演能力而设计的新基准。研究团队从法国里尔大学开发的这一工具专注于四个关键维度:情感理解、决策制定、道德对齐和角色一致性,通过单轮交互实现全自动评估。研究结果显示Gemini-1.5-Pro在总体表现上领先,而GPT-4o虽在决策方面表现出色,但在角色一致性上存在明显不足。这一基准为研究人员提供了一个可靠、可重复的方法来评估和改进大语言模型的角色扮演能力。