英伟达和Google的首席科学家得出一个结论:推理时代,AI底层架构要全拆开来做 原创

GTC 2026 keynote结束的第二天,英伟达首席科学家Bill Dally和Google首席科学家Jeff Dean坐到了同一个台上。前一天黄仁勋刚给整届大会定了调——"The inflection point of inference has arrived",推理的拐点已经到来。

GTC 2026 keynote结束的第二天,英伟达首席科学家Bill Dally和Google首席科学家Jeff Dean坐到了同一个台上。前一天黄仁勋刚给整届大会定了调——"The inflection point of inference has arrived",推理的拐点已经到来。整场keynote他提了近40次"推理","训练"只出现了10余次。ChatGPT、o1推理模型、Claude Code智能体,他把这三件事称为过去三年AI行业的"三件大事",共同指向一个趋势:推理需求正在吞噬训练需求。

英伟达和Google的首席科学家得出一个结论:推理时代,AI底层架构要全拆开来做

Dally和Dean的对话就是在这个定调之后展开的技术深潜。两人分别站在AI算力硬件和大规模AI系统的第一线。Dally是互连网络和并行计算领域的教科书级人物(他写过这个领域的教科书),2009年加入英伟达后带领团队实现了GPU推理性能在十年间提升1000倍的工程路径;Dean则是Google基础设施的奠基者之一,从MapReduce、BigTable到TensorFlow再到TPU,他的名字贯穿了Google过去25年几乎所有关键基础设施节点。2025年,两人分别获得了英国女王伊丽莎白工程奖。

这场对话是Dally在GTC上的年度保留节目。GTC 2024他和斯坦福教授、ImageNet创始人李飞飞对谈,GTC 2025和Meta首席AI科学家Yann LeCun对谈,今年轮到了Dean。每年的话题都围绕硬件和AI研究的交汇点,但今年有一个贯穿始终的新主题:过去那种用一种芯片、一套流程打天下的思路行不通了,推理时代的每一个环节都需要拆开来做。

1. 模型在变强,强在"有标准答案"的地方

三四年前,模型在八年级数学题上只能答对40%到50%,大家就已经觉得了不起了。Dean说,过去一年模型在数学和编程上的进步速度远超预期。Gemini在国际数学奥林匹克IMO拿了金牌,在国际大学生编程竞赛ICPC也拿了金牌,12道题解出了10道,其中包括一道所有人类队伍都没做出来的题。

这背后的关键是Dean所说的verifiable rewards,也就是模型能拿到明确对错反馈的那类任务。数学题有对错,代码能跑能不跑,这种清晰的信号让强化学习的训练效率远高于模糊领域。如何把这种"有标准答案"的训练方法扩展到没有标准答案的领域,Dean认为是当前最重要的开放问题之一。

与能力提升同步发生的是工作模式的变化。以前让模型做事,几分钟就要人来接手。现在可以交给它一个持续数小时甚至数天的任务,它会自己执行、自我纠错、继续推进。Dean说这是一个本质性的变化:模型从"回答问题的工具"变成了"在后台独立运转的智能体"。

研究本身也在被智能体改变。Dean回顾了2017年Google Brain团队做神经架构搜索的经历,当时叫NAS,研究者需要用代码定义搜索空间。现在可以直接用自然语言告诉模型"请探索新的蒸馏算法,试试我们目前没用到的信息",它就会自己跑50个实验,淘汰40个,在剩下10个里做深入跟进。"想到有研究价值的点子其实不难,难的是跑实验、解读结果。如果智能体能承担大量这类工作,那就是超强研究者和超强智能体之间的协作。"

2. 智能体的瓶颈不在模型,在工具链

智能体要高效运转,推理速度只是一半问题。Dean指出了一个容易被忽视的瓶颈:智能体调用的工具大多是为人类交互速度设计的,而且跑在CPU上。C编译器的启动时间、电子表格和文档的编程接口,这些工具的响应速度从来没有人在意过,因为人类够慢。但当智能体运行速度比人快50倍时,工具延迟就成了主导因素。

把模型推理做到无限快,端到端也只能加速两三倍。这就是阿姆达尔定律的翻版:可加速的部分再快,不可加速的部分就成了天花板。Dean认为接下来需要对整条工具链做一次彻底的重新设计——编译器、文件系统、API接口,所有为人类速度设计的东西都要为智能体速度重写。

这个判断让对话自然转向了硬件侧:推理本身也需要拆开来做。

3. 推理不是一种计算,而是三种

Dally给出了一个直接的判断:推理已经不是"开始变重要",推理就是现在的核心任务。数据中心90%的电力消耗花在推理上。

但推理内部并不是均质的。Dally把它拆成了三个截然不同的阶段。

Prefill阶段接近训练的计算模式,所有token可以并行处理,计算密集,通信能耗高。Decode阶段则完全不同,是矩阵乘向量运算,极度依赖内存带宽和延迟。而Decode内部还可以进一步拆开——每一层Transformer对每个token做两件事:先做注意力计算,再过前馈网络。

注意力计算是"看哪里"。当前token对上文每个位置打相关性分数,分数高的信息权重大,不相关的被忽略,最终从上文中萃取出相关信息。上文信息存在KV cache里,每个已生成的token都留有一对Key-Value向量作为档案。注意力自身参数不大,以LLaMA 3 8B为例只占模型总参数的约17%,真正的负担在KV cache:上下文越长cache越大,百万token级别可达几十上百GB。

前馈网络是"看完怎么理解"。它接手注意力交出的萃取物,分拣出哪些特征和当前任务相关,放大重要的,压掉没用的,打包传给下一层。前馈网络是模型里的大块头,占总参数的约70%,模型的事实性知识大部分就编码在这里。Mixture of Experts这种让不同输入激活不同参数子集的架构里更直观:前馈网络被拆成几十个专家,代码相关的token路由到编程专家,历史相关的路由到另一个专家。

两步对硬件的需求截然不同。注意力需要大容量存储来放KV cache,只有GPU的HBM撑得住。前馈网络参数量占七成,每生成一个token都要完整读一遍,读取量大但模式规律。Groq LPU把SRAM直接做在芯片上,读取带宽150TB/s,是GPU HBM 22TB/s的约7倍;256块LPU组成LPX机架,总共128GB SRAM,用数量换容量。

Dally预测未来会出现至少三种不同配比的硬件:一种擅长训练和Prefill,一种擅长Decode中的注意力计算,一种擅长Decode中的前馈网络。

Speculative decoding能稍微缓解Decode的带宽困境。它的思路是"先猜后验":用一个小模型快速猜出几个token,再用大模型一次性验证,把原本逐个生成的矩阵乘向量变成矩阵乘窄矩阵。扩散语言模型可能做得更好,一次生成几百个token的块。

而Dally在对话中说的"Decode可能分化为注意力专用和前馈专用两种硬件",黄仁勋已经做成了产品。GTC 2026上发布的Dynamo调度系统把attention decode路由给Rubin GPU,把FFN和MoE decode路由给Groq LPU,两种芯片协作处理同一个token的同一层,各干自己最擅长的那一半。

4. "别搬数据":四个字背后的能耗算术

当你把推理优化到极致、batch size压到最小来追求单用户低延迟时,计算本身已经不是瓶颈了,通信延迟才是。Dally详细拆解了两层通信开销。

片上通信方面,英伟达正在研究静态调度的设计,取消路由开销、排队和仲裁,让信号以接近光速传播。芯片一角到另一角只需30纳秒,而现在的方案要几百纳秒。片外通信方面,过去的高速互连为了最大带宽做了极复杂的数字信号处理和前向纠错,但如果把带宽从每对400Gbps降到200Gbps,这些复杂处理全部消失,只剩下序列化延迟,几个时钟周期就能完成。Dally说他有信心做到每秒10000到20000 token的单用户推理速度,前提是用对了架构。

然后他给出了一组让全场安静下来的能耗数字。

用NVFP4这种英伟达自研的4位浮点精度做一次乘加运算,大约消耗10飞焦耳,femtojoule,小数点后面跟14个零的那种小。但从HBM4外部存储器读取那4.5个比特的数据,按每比特3到4皮焦耳计算,总共约15皮焦耳。读一个数字的能耗,是算一次的1000倍。

从片上SRAM读数据呢?也是大约10飞焦耳,和计算本身一个量级。所以核心策略只有四个字:别搬数据。

"有人笑了,但我是认真的。" Dally说。英伟达在研究的方案是把矩阵的一行直接放在SRAM里,激活向量也在旁边,就地做点积运算。1000次乘加不需要任何数据搬运,最后把1000个数缩减成1个输出值。

SRAM虽好,但每比特的面积成本比DRAM高一个数量级。真正让Dally兴奋的技术是把DRAM直接堆叠到GPU芯片上方。读DRAM的能耗大部分其实不是读存储单元本身,而是把比特从存储位置搬到GPU引脚的那段路程。如果DRAM就在芯片正上方,比特直接垂直落下来,读取能耗降一个数量级,带宽升一个数量级,总功耗不变但性能大幅提升。Dally用了一个比喻:像弹珠机一样,把你要的比特往下弹进运算单元。

数值精度的优化空间可能比想象中更大。Dean问了一个问题:有没有考虑过用lookup table做数值表示?每个符号可以精确放在数轴上你想要的位置,但总共只有几个符号可选。Dally说确实在研究,代价是计算逻辑会更复杂,但在某些场景下值得。

5. 注意力的未来:对万亿token做检索,对百万token做注意力

模型在变大,注意力窗口也在变长,但离真正想要的规模还差几个数量级。Dean指出,理想状态是模型能对所有信息做注意力:互联网上所有文档,个人所有邮件和照片。

他给出的方案是分层过滤。先用轻量级检索机制从万亿token中筛出大约一万篇文档,总量可能到一两千万token;然后用稍重一些的机制从中挑出约百万token放进上下文窗口,再做全量注意力。本质上是用检索代替注意力来覆盖长尾信息,只在最后一层用全量注意力处理真正相关的内容。

当前的注意力优化方案可以分成两类。一类是分块注意力,把token切成比如128个一组的块,先粗筛哪些块可能有用,再只对有用的块做全量注意力,仍然是二次复杂度,但常数因子大幅缩小。另一类是聚类注意力,把注意力状态做聚类,只看和当前查询最相近的簇,理论上可以把复杂度从二次降下来。两种方案的共同代价是相对于全量二次注意力会损失一些质量,所以这是一个工程权衡。

Dally从硬件视角补充了另一层拆解。模型趋势是参数越来越多但越来越稀疏,每次推理只激活一小部分。这迫使硬件设计者在四种资源之间做取舍:算力、内存带宽、内存容量、通信带宽。当模型架构发生变化,比如从group query attention换成multi-head latent attention,这四种资源的最优配比就会跟着变。Dally坦言没有办法完全预测未来模型需要什么配比,如果差异足够大,英伟达可能会做不同配置的SKU来对冲这种不确定性。

6. 数据没有枯竭,训练范式需要重写

Dally问了一个直接的问题:按照chinchilla scaling law,一定量的算力应该配多少参数和多少token的训练数据,但数据快用完了怎么办?

Dean先做了一个重要澄清:chinchilla scaling law针对的是训练效率最优,如果你把推理阶段的性能也算进去,最优配比可能不一样。 业界惯用的"参数量乘以20等于token数"这条经验法则,在推理成本占比越来越高的时代可能需要修正。

然后他明确反对"训练数据快用完了"的说法。视频和关联音频数据、真实世界的机器人和自动驾驶数据、合成数据,这些都远未被充分利用。Dally追问:合成数据不就是原有数据的另一种表达吗?Dean承认存在这个问题,但指出如果生成合成数据的模型本身足够强,产出的数据确实能帮助目标模型。此外,图像模型时代常用的data augmentation,也就是对现有数据做旋转、裁剪、加噪等变换来扩充训练集,以及dropout、蒸馏等防止模型过拟合的技术,在LLM领域还远未被充分探索。

Dean接着提出了一个更激进的观点。当前预训练的本质是:随机初始化模型,把它"绑在板子上",让互联网数据从面前流过,模型被动观察学习,不与世界交互。他认为预训练和后训练之间的界限应该消失。未来应该在预训练阶段就让模型采取行动,在模拟环境中操作,预测问题的答案,然后根据反馈调整下一步学什么。模型还应该能自主选择接下来看什么数据,而不是被动接受预先排好的顺序。

Dally直接把这和AlphaGo类比:能不能让LLM互相对话来提升性能?Dean觉得方向是对的,但模型要先聪明到一定程度才能从这种交互中获益。"给它看100亿个token之后,它大概就能做点什么了。"

7. 用AI设计AI的芯片:80人月变成一个GPU跑一晚

训练范式在变,设计训练硬件的方式本身也在变。Dally介绍了英伟达内部用AI做芯片设计的四个层面。

NVCell用强化学习自动生成标准单元库,也就是芯片中最基础的逻辑积木块。每次换到新的半导体工艺节点,都需要把大约2500到3000个标准单元移植过去。以前需要8人团队花10个月,合计80人月,现在一块GPU跑一晚上就完成,而且在面积、功耗、延迟等指标上达到甚至超过人类设计。

PrefixRL用强化学习解决carry look-ahead chain的设计问题,这是加法器里决定进位信号怎么传播的关键电路,从1950年代就开始有人研究。AI把它当成Atari游戏来玩,目标是做刚好满足时序要求、同时面积和功耗最小的加法器。产出的设计人类工程师看着匪夷所思,但指标好了20%到30%。

ChipNeMo和BugNeMo是把通用LLM用英伟达所有历代GPU的RTL代码和架构文档微调后得到的专用模型。RTL是寄存器传输级,芯片设计中用硬件描述语言写成的源代码,地位相当于软件工程里的源码。这两个模型最大的价值在于充当一个极其耐心的导师:新工程师不用去问资深工程师"纹理单元怎么工作"这类基础问题了,直接问ChipNeMo,它会详细解释,还能回答追问。Bug归属判定、报告摘要等重复性工作也由它处理。

探索性架构搜索是最新的方向。用agentic系统提出各种设计方案的参数空间,跑简单的架构实验,缩小设计空间到人类可以审视的规模。Dally说,从探索阶段结束到最终流片之间,最大的瓶颈是设计验证,这也是他们重点用AI加速的环节。"我当然想说一句'帮我设计新GPU吧,我出去滑几天雪'然后回来就好了。但离那一天还远。"

Dean介绍了Google做TPU时的协同设计流程。ML研究者会告诉硬件工程师"我们两三年后可能会大量做这类运算",硬件工程师看了说"这个我们做不快,但如果改成另一种计算方式呢?"ML研究者拿到这个约束条件,去做原型验证看是否可行。这种互动有时候会产生一些赌注:在硅片中放一些实验性的加速功能,赌两到四年后会用上。赌对了,某类运算能在硬件上加速10到20倍;赌错了,那块芯片面积就闲置,损失可控。

8. 网络拓扑:没有一种网络对所有流量模式都好

Dean提到Google TPU使用的是2D/3D Torus直连网络,能扩展到数千块芯片,但拓扑结构不同于英伟达基于交换机的全互连方案。Dally的回应信息量极大,他写过互连网络领域的标准教科书,这个问题正好在他的主场。

如果计算负载局部性强,直连网络效率高,一跳就到邻居。但MoE模型的专家分散在各处,需要多跳才能到达目标,这时经过交换机一上一下反而更快。Dally透露英伟达研究部门曾做过一个实验性推理系统,未量产,采用混合方案:近距离用flattened butterfly拓扑做直连,这种拓扑比Torus多几条快捷链路、覆盖范围更广;远距离则通过交换机层级处理。

Dean总结得干脆:"给定一种流量模式,你能找到最优网络。但没有一种网络对所有流量模式都好。"

这句话其实适用于这场对话讨论的每一个层面。推理不是一种计算,需要拆成三种。能耗的解法不是一个策略,需要SRAM、DRAM堆叠、数值精度多管齐下。注意力的未来不是一种算法,需要分层检索加分块注意力的组合。训练范式不是一套流程,需要把预训练和后训练的界限打破重来。

9. 教育、医疗,和4万人公司的成长烦恼

两人在AI社会影响上有高度共识。个性化教育辅导可以让学习效果提升一到两个标准差。Dean认为接下来几年完全有可能做出不会直接给答案、但能帮学生更高效掌握概念的AI辅导系统。模型的跨模态能力让这件事更可行:有人听播客比读课本更容易理解生物学,有人通过交互式游戏比读公式更容易建立物理直觉。

Dally则描述了他心目中的AI健康教练:一个坐在你肩膀上的小天使,在你第四次走进麦当劳时提醒你拐角有家沙拉店。他承认自己在黄仁勋的活动上只吃到了甜点当午餐,要是有个AI教练就好了。Dean提到他和多位合著者在2024年底发布了一篇论文,可以在shapingai.com上读到,系统分析了AI在就业、教育、医疗、媒体、国家安全、科学等七个领域的潜在影响,并提出了18个具体的研究方向。

对话尾声两人聊到了大公司的成长代价。Dally从2003年就开始给英伟达做顾问,当时公司不到1000人,决策极快,零官僚。现在4万多人,有了规则和层级,但黄仁勋仍然保持了创业公司的氛围。Dean也有同感:他加入时Google员工全挤在Palo Alto一间T-Mobile店的楼上,现在18万人,每次规模翻倍都会让某些原来有效的做法失效。两人的共识是:成长带来了以前做不到的事情,但也要不断想办法避免官僚化吞噬执行力。

这场对话覆盖的技术跨度极大,从飞焦耳级别的能耗计算到万亿token级别的注意力架构,从单个加法器电路到整个数据中心的网络拓扑。但贯穿始终的逻辑只有一条:AI进入推理时代后,过去那种用一种芯片、一套流程、一个架构打天下的思路走到头了。每一个层面都需要拆开来做,每一个层面都需要专门化的解法。黄仁勋在keynote上说的"推理拐点",Dally和Dean在这场对话里给出了它的技术注脚——拐点之后,分化开始。

核心问答

Q1: 推理为什么突然变得比训练更重要?数据中心90%的算力已经花在推理上。随着智能体工作流从分钟级扩展到天级,推理的总量和对延迟的要求同时在飙升。英伟达收购Groq、拆分推理硬件为多种专用芯片,都是这个趋势的产物。对开发者来说,未来的性能优化重心会从"怎么训得更快"转向"怎么推理得更快更省"。

Q2: 降低AI能耗最有效的杠杆是什么?搬数据的能耗是计算本身的1000倍。从片上SRAM就地计算能把数据搬运降到零,但SRAM面积成本太高。把DRAM堆叠在计算芯片正上方是两人都认可的最有前景的方向,能同时提升一个数量级的带宽和降低一个数量级的能耗。更高效的数值表示也是一个杠杆,英伟达的NVFP4已经把精度压到4位浮点,lookup table方案可能走得更远。

Q3: 模型自我改进离现实还有多远?Dean说"整套流程还没完全到位,但已经能看到苗头了"。现在可以用自然语言告诉模型"去探索这个方向上的改进方案",它能自主跑几十个实验并做初步筛选。完全自主的"模型设计下一版自己"可能还需要数年,但研究者生产力的提升已经是现实。关键突破点在于:如何把可验证奖励领域的RL训练方法扩展到更广泛的、没有标准答案的研究领域。

来源:至顶AI实验室

0赞

好文章,需要你的鼓励

2026

03/23

19:40

分享

点赞