GTC 2026主题演讲结束后第二天,黄仁勋在记者会上回答了几十位全球记者的提问。问题略散,从芯片架构到开源战略,从游戏渲染到人生哲学,但我觉得这些问题背后可以找到一条比较核心的线索:AI究竟会对现有的产业秩序做什么?是否将取代人类工作,我们将无事可做?

黄仁勋的说,其实自己比以往任何时候都忙。不是因为项目变多了,而是工作回来的速度变快了。以前写完一份产品定义,团队拿去做一个月;现在给Agent,可能30分钟就回来了,又轮到(人类)工作了。
人类角色在变,计算机的角色也在变:当AI开始能自主完成任务,计算机本身的角色就发生了根本转变。过去几十年,计算机的核心使命是数据录入和数据检索,你输入,它存储,你查询,它返回。黄仁勋说,这个使命正在被替换:计算机的新使命是制造token。Token是AI生成内容的基本单元,每一次推理都是一次生产。当计算机从检索工具变成生产系统,整个基础设施的设计逻辑就要跟着变,不再优化存储容量,而是优化吞吐量;不再按核心数定价,而是按产出的token定价;不再是一台独立的机器,而是一座有原料、流水线、调度系统和交付网络的AI工厂。
如果大家常看黄仁勋的主题演讲,会注意到有一个每次几乎都会出现的主角:CUDA。今年GTC恰逢CUDA 20周年,黄仁勋以此开场,回溯了这套并行计算平台从只有学术界少数人使用、消耗了英伟达当时绝大部分利润,到今天装机量达数亿GPU、渗透每一家云厂商和每一个主要行业的历程。主题演讲重点介绍了cuDF(加速结构化数据处理)和cuVS(加速向量搜索)两个CUDA-X库在企业数据处理上的落地成果。记者会上,黄仁勋在被问到汽车业务只占英伟达总收入约1%时,又一次搬出了CUDA的故事:当年CUDA是0%营收、90%成本,任何理性的人都会放弃它,但英伟达没有。这应该是一种很好的说理方式——用历史说服现在。
作为英伟达史上最大的一笔交易,它自然是记者会第一个问题的焦点:你们花200亿美元拿下Groq,是不是等于承认GPU在推理上有根本局限,AI的重心已经从训练转向了推理?
说明一下背景:Groq由谷歌TPU的创始工程师Jonathan Ross于2016年创立,专门开发LPU(语言处理单元)芯片,针对AI推理的低延迟场景做了专项优化,是英伟达GPU在推理领域最受关注的挑战者之一。2025年12月,英伟达以约200亿美元完成了与Groq的资产许可协议,Jonathan Ross及核心工程团队随之加入英伟达;Groq公司本身继续作为独立实体运营。英伟达将这笔交易定性为许可合作而非并购。
记者的问题隐含着一个逻辑:既然Groq能做你做不到的事,英伟达是不是间接认输了?黄仁勋直接否掉了这个前提。
推理,指的是AI模型部署上线后实时响应用户的那个过程——你向ChatGPT提问,它生成回答,这就是推理。训练是让模型学会知识,推理是让模型把知识用出来。过去几年,AI行业的算力大头压在训练上;现在,随着模型越来越多地被真实用户使用,推理的算力需求正在快速追上来。
黄仁勋说,英伟达早在2024年底、2025年初就预判到了这个拐点,并提前布局了三件事:NVLink 72(把72块GPU连成一个整体的互联技术)、NVFP4(更精简的计算精度格式)、Dynamo(AI工厂的推理调度软件)。这三件事组合起来,让Grace Blackwell成为今天推理效率最高的系统,性能提升35倍,成本降至五十分之一,每瓦性能提升50倍。"我们现在是成本最低的token生产商,是吞吐量最高的token工厂。"
那Groq呢?Groq填补的是一个更细分的缺口。黄仁勋在主题演讲里提出了一个新判断:并非每个token都是一样的。有一类场景,同时要求模型参数量大、上下文窗口极长、响应延迟极低,三个目标同时满足。Groq的LPU(语言处理单元)芯片专门为低延迟推理设计,单独使用时可以做到极快,但受限于500MB的片上内存,跑不了完整的大模型。Vera Rubin的GPU内存大、计算强,但延迟不是它的强项。把两者放进同一个系统,用Dynamo做调度,Vera Rubin处理需要大算力的预填充阶段,Groq LPX处理需要低延迟的解码阶段,吞吐量提升35倍,三个目标同时达成。
具体配比上,黄仁勋给了一个参考数字:整个AI工厂中,大约75%仍然是纯Vera Rubin,另外25%配备Groq LPX,而且那25%里Vera Rubin依然是核心。"我们不知道怎么打败Vera Rubin,否则我们就会造出打败它的东西。"
"Groq对英伟达的意义,就像当年Mellanox对英伟达的意义一样。我们是在给架构做加法,因为我们造的不只是一块GPU,我们造的是一座AI工厂。"
Mellanox是2020年英伟达以70亿美元收购的网络技术公司。收购时也有人质疑,但InfiniBand高速网络后来成为大模型训练集群里不可或缺的内部骨干。AI工厂的逻辑很清楚:不是每条生产线都要一样的机器,不同工序配不同设备,这是工厂管理常识,不是认输。
前一天的主题演讲上,黄仁勋说,他现在看到的采购订单和需求管线,到2027年累计超过1万亿美元——去年同一个场合他说的数字是5000亿。记者会上,记者再次追问这个数字:1万亿,口径到底是怎么定的?
黄仁勋拆解了这个数字的口径。
这1万亿只包含两样东西:Blackwell和Vera Rubin的GPU订单,时间截止2027年底。 明确不包括:Vera CPU独立业务、Groq LPX机架、存储系统(BlueField-4 STX)、Vera Rubin Ultra,以及更下一代的Feynman系列。
为什么要用这么窄的口径?他解释了原因:去年GTC他预测的是Blackwell加Rubin到2026年有5000亿美元。如果今年把CPU、Groq、存储全部打包进来,就没法和去年做同类比较,读者会不知道这个数字翻番,是因为业务真的增长了,还是只是算法换了。
但他也给了一个"如果全算上会是多少"的估算:一个一千兆瓦的数据中心,加上Groq LPX之后经济价值大约增加25%。存储系统是另一块新业务,AI使用存储的方式和人类完全不同,KV缓存的规模让传统存储架构跟不上,英伟达正在重新定义这个市场。理论上,如果把这些都算进去,"那个1万亿可以变成1.2万亿"。
最后他补了一句意味深长的话:"我站在这里,距离2027年底还有21个月。这意味着它很可能比1万亿更大。"
同一个话题里还有回购问题。英伟达此前承诺将约50%的自由现金流用于股东回报,去年实际分配了约40%。他表示今年基数更大,比例会提高。他对现金分配的优先级排序是:第一,供应链投资、产能保障;第二,生态系统投资("投资下一个Google、下一个Meta");第三,围绕CUDA建设生态;剩余再回购和分红。"所以答案是,这很可能是一个非常大的数字。"
整场记者会里,黄仁勋谈OpenClaw的时间超过了任何一项其他产品。这背后有充分的铺垫:OpenClaw是奥地利开发者Peter Steinberger于2026年1月发布的开源AI Agent平台,几周内成为GitHub历史上增长最快的开源项目,超过了Linux三十年的扩散速度。GTC开幕前一天的预热圆桌直播里,黄仁勋专程走进直播间,和正在接受采访的Steinberger打了个招呼;主题演讲上,他把OpenClaw列为当下最重要的软件现象之一,与CUDA、Linux相提并论。Steinberger本人已于今年2月加入OpenAI,但OpenClaw作为开源项目独立延续。
黄仁勋的历史坐标很清晰:ChatGPT把生成式AI带到了世界面前,o1把推理系统带到了世界面前,而OpenClaw是"后推理时代"第一个真正构建良好的开源Agent平台。此前的Agent工具,比如Claude Code,基本都在科技公司内部使用,没有暴露给大众。OpenClaw让一行代码安装、一条指令启动一个Agent成为现实,覆盖人群从软件工程师扩展到了所有人。
英伟达在这个基础上做了一件事:NemoClaw,OpenClaw的企业安全参考栈。核心解决的是安全性、治理和隐私这三个让企业不敢用开源工具的顾虑,让开源模型也能在企业环境里合规运行。他把NemoClaw定位为Linux加Kubernetes级别的基础设施,承诺未来30年、60年持续贡献。
关于为什么要做这个长期承诺,他给出了一个有说服力的逻辑:Groq 1、Groq 2刚刚发布;Cosmos 1、Cosmos 2刚刚发布;Nemotron已经出到第4代。"当你开始给一个东西编号,就是因为你有意图继续下去。CUDA 1到今天是CUDA 13了。"这个编号本身就是一种公开的承诺。
黄仁勋描述的场景很直观:以前写完一份产品定义,团队拿去做一个月;现在,Agent 30分钟就回来了,然后又轮到你了。"我比以往任何时候都忙,因为工作回到我手上的速度快了太多。你始终处在关键路径上。"
有人问到了一个很实际的问题:游戏玩家产生的海量行为数据,可以用来训练物理AI的世界模型吗?毕竟游戏里有大量的人体动作、物体运动、场景交互。
这个问题触发了黄仁勋一段少见的技术深讲。
他的回答是:不能直接用。原因是游戏不完全遵守物理规律。Fortnite里角色的脚步动作和奔跑速度不匹配,人物一半在跑一半在滑;角色可以从山上跳下而不受伤;树木的摇摆方式也不符合真实物理。"你不能用这些观察来训练那些需要基于物理规律的基础模型,因为它们根本不符合现实。"
这个限制并非无解。英伟达的方案是数据飞轮:先用真实世界的观察数据打底,数量有限但可靠;再用3D物理仿真来增强——Newton和Isaac Lab是英伟达的物理仿真平台,其中碰撞、关节运动、逆向运动学全部遵守物理规律,不像游戏引擎那样为了好玩而妥协准确性;把两类数据合并训练出世界基础模型;等这个模型具备一定能力后,再用3D图形控制它来生成大量合成数据。飞轮就此启动,合成数据的规模可以远远超过原始观察数据。
同样的逻辑贯穿DLSS 5的争议。游戏社区有批评声音认为这项技术会抹平各家游戏的美术风格,变得千篇一律。黄仁勋的回应没有绕弯:"首先,他们完全错了。"DLSS 5不是帧级别的后处理,而是以游戏本身的几何数据为输入,在几何级别做生成式控制,开发者可以微调生成效果匹配艺术风格。"我们创造了技术,我们不创造艺术。"
黄仁勋说,他自己在思考英伟达战略的时候,用的也是类似的方式:在脑子里建一个完全模拟的未来,然后不断把它和现实校验,看两者是否保持一致。"如果我的模拟和现实一直保持连贯,那么我的未来愿景一定正在成真。"
关于Vera Rubin的讨论,通常落在参数规格和性能数字上——每瓦多少tokens、每美元多少FLOPS。但这场记者会里有一个问题,引出了黄仁勋对Vera Rubin最具体的使用场景描述,比任何规格表都更容易理解这个系统在改变什么。
问题是:Vera Rubin究竟是让今天的工作负载跑得更快,还是在重塑计算模型本身?
黄仁勋的答案是两者都有,但他重点讲了一个数字:今天使用ChatGPT或任何主流AI,大约每秒输出20个token。Vera Rubin的推理系统可以做到每秒1000到2000个token,快了将近100倍。
有人追问推理竞争格局,问市场上涌现出这么多挑战者,怎么确定英伟达的方案真的最好。黄仁勋说,看三个事实:MLPerf推理基准测试,英伟达在所有项目上排名第一,大多数竞争者甚至无法完成测试;SemiAnalysis的InferenceX报告,在每一个可量化的维度上英伟达都领先——他说,正是这份报告给了他"推理之王"这个称号,他通常只能得到玻璃奖杯,不知道拿来干什么,但这个名号他很受用;再看Artificial Analysis,它扫描了所有API推理服务商,英伟达是唯一在所有维度上都名列前茅的方案。
这个100倍的差距在数字上听起来只是硬件参数,但他描述的场景让这个数字有了质感:
"想象一下按下回车,答案回来快100倍。现在很多问题AI需要思考、推理、做研究。想象一下100倍速度返回。未来你和AI的交互——在你打字的同时,它已经在思考了。等你按下回车,它已经完成了。'给我写一个网站程序'——按回车——完成。'给我设计一个厨房'——按回车——完成。这就是未来。"
速度上的量变会引发使用方式上的质变。就像宽带让视频流媒体成为可能,而拨号上网时代的人根本不会想到"在线看电影"这件事,因为它太慢了。100倍速度会让今天不敢想象的使用场景变得理所当然。
物理世界的速度变化也在加速。黄仁勋在自动驾驶上的立场从未改变:这是一个"已解决的问题",剩下的只是工程优化。他的理由是一个简单的乘法:全球每天行驶一万亿英里,如果未来某一天大部分都是自动驾驶,按每英里一个价格算,这是一个数万亿美元的业务。汽车业务目前只占英伟达总收入约1%,但他的参照系是当年CUDA:0%营收、90%成本,"任何理性的人都会放弃它",但他没有。
机器人上,他给了一个比市场通常预期更激进的时间表。他的逻辑从"存在证明"出发:你已经能看到机器人在走路了。一旦一项技术有了存在证明,精细化改进通常不超过五年。更重要的是,动作控制(System 1,通过视觉-语言-动作模型实现)和认知推理(System 2,通过OpenClaw实现)正在被同时解决。"在不到五年的时间内,比如三年,你将看到极其出色的机器人。"
记者会里有几个问题,暗含着同一个焦虑:AI的到来会不会让一些行业、一些工作、一些软件消失?
黄仁勋的回答,贯穿三个不同的问题,给出的是同一个答案。
先是SaaS软件。市场上流传着一种观点:Agent工作流可以替代传统SaaS,软件授权公司的商业模式即将被颠覆。他让提问者"转告那些个人投资者——他们完全错了",然后给了一个工程师能听懂的例子。
芯片设计行业的EDA工具(如Synopsys、Cadence)是典型的SaaS商业模式,更多工程师意味着更多工具许可证。现在假设有了Agent工程师,它们会做什么?它们仍然需要使用EDA工具,因为芯片设计的每一步都需要可验证、可重复的结果,这些结果必须放回EDA工具的数据结构里,你不能凭空变出晶体管。 SQL同理:Agent完成任务后,结果必须写回数据库,ground truth不会消失。因为有了Agent,需要授权的工具数量可能爆炸式增长,不是减少。
人类工作的问题也一样。机器人会不会抢走制造业和运输业的岗位——黄仁勋先给了一个常被忽略的现实数据:全球制造业目前缺少数千万工人,缺数百万卡车司机,就业率已经很高,但许多公司仍然没有足够的劳动力。机器人首先是在填补缺口。
然后他给了一个长周期的类比:"你上次坐在门廊的摇椅上、喝着柠檬水、看着日落是什么时候?你开玩笑吧?我只在100年前的电影里看到过。"过去一百年,技术不断进步,但就业数量和经济总量都在上升,每个人都比以往更忙。关于那些注定消失的工种,他用了一个冷静的类比:马以前有各种用途——骑马、犁地。现在一匹马价值500万美元。"世界在变化,AI会改变所有这些。但我相当确信,会是一个更好的世界。"
还有一个问题来自欧洲记者,问德国这样的工业强国如何在AI时代找到位置。黄仁勋从上一次工业革命说起。德国和日本曾经引领了机电一体化时代——技术与机械工艺、工业化的深度结合。但IT革命来了之后,软件的文化和制造业格格不入:制造业讲究步步完美,软件必须先发布后修复,这是深层的文化差异,不只是技术差距。美国因此完全主导了IT革命,德国、日本被甩在后面。
但OpenClaw改变了这个方程式。"OpenClaw不需要你去编程,只需要你告诉它做什么。你可以跳过IT革命,直接跳到AI革命。"他说这应该是德国听到的最好消息,也是日本听到的最好消息:"把AI技术和你们机电一体化产业的天赋结合起来,你们一下子就变成了机器人产业。我是你们最大的啦啦队长。"
记者会最后,有一个提问:黄仁勋曾经说希望有些时候可以有一些"受苦"——在一个相对理想的世界里,什么样的苦值得吃?
他停顿了一下,说那番话当时是在一个讲座,对着大学生讲的,"大家是已经毕业的人,现在应该享受生活"。
然后他认真说了下去。每当你学一些新东西,总伴随着相当程度的痛苦;每当你做超出舒适区的事情,总有相当程度的焦虑;每当你站在台前做主题演讲,知道所有人都在评判你,"总有一定程度的焦虑和痛苦"。"受苦无处不在。它是追求卓越的本质部分。只要你觉得自己在尽力做到最好,把一切都留在了赛场上——那么受苦一定已经发生了。"
这场记者会两小时里,问题天南海北,但黄仁勋给出的答案都指向同一个底层逻辑:工厂不只是更强的GPU,是原料、流水线、调度系统和交付网络的整体——任何一个环节都不能脱离地基单独存在。
记者会上还有一个小插曲。Motor Trend颁给他年度人物,理由是他在AI和自动驾驶领域的影响力。他接过奖杯,调侃说:"其实我的驾驶技术估计已经退化了。"台下立刻有笑声。AI工厂建造者,得到了汽车媒体的年度人物奖。时代有时候就是这样自我注解。
Q:与Groq的许可合作是不是承认GPU在推理上有根本局限?
"Groq对英伟达的意义,就像当年Mellanox对英伟达的意义一样。我们是在给架构做加法,因为我们造的不只是一块GPU,我们造的是一座工厂。"黄仁勋解释,Groq LPX解决的是"大模型+长上下文+极低延迟"必须同时满足的特定场景,Vera Rubin依然承担75%的AI工厂算力,Groq是附加在另外25%机架上的专用加速层。两者结合,同等功耗下推理吞吐量提升35倍。"我们不知道怎么打败Vera Rubin,否则我们就会造出打败它的东西。"
Q:1万亿美元订单的口径是什么?
"1万亿只包括Blackwell加Vera Rubin,只到2027年。不包含Vera CPU独立业务,不包含Groq,不包含存储,不包含BlueField,不包含Vera Rubin Ultra,不包含Feynman,不包含Feynman Next。只有Blackwell加Vera Rubin。而且这还是我站在这里、距离2027年底还有21个月的数字——这意味着它很可能比1万亿更大。"
Q:游戏玩家的数据能用来训练物理AI的世界模型吗?
不能直接用。黄仁勋解释,游戏引擎为了好玩而妥协了物理准确性——Fortnite的角色脚步不匹配速度,人物可以从山上无损跳落。训练需要基于物理规律的基础模型,必须以遵守物理定律的仿真数据为原料,而非游戏数据。英伟达的方案是:真实观察数据→物理仿真(Newton/Isaac Lab)→世界基础模型→合成数据生成→循环扩大规模。"你必须先学到足够的知识,才能理解事物是如何运作的,然后才能想象大量未来的条件。"
Q:AI Agent会让SaaS软件商业模式消亡吗?
"请转告那些个人投资者——他们完全错了。"黄仁勋用芯片设计EDA工具举例:Agent工程师做完芯片设计,结果必须放回Synopsys和Cadence的数据结构里,因为芯片设计需要可验证、可重复、可控的输出——"你不能凭空变出晶体管,你不能那样设计芯片"。SQL同理,永远是业务数据的ground truth。有了Agent,需要授权的工具数量可能爆炸式增长——不是减少。
Q:你的人生哲学是什么,以及NVIDIA未来的关键风险是什么?
"我的哲学很简单:不要被炒鱿鱼。不要无聊。不要死。在这个三角形里保持住。"NVIDIA的对应版本是:不要被客户解雇,不要无聊到公司表现不佳,不要倒闭。关于受苦:"每当你学一些新东西,总伴随着相当程度的痛苦。受苦无处不在。它是追求卓越的本质部分。只要你觉得自己在尽力做到最好,把一切都留在了赛场上——那么受苦一定已经发生了。"
好文章,需要你的鼓励
前FBI网络安全部门副助理局长、现Halcyon勒索软件研究中心高级副总裁辛西娅·凯泽指出,勒索软件已成为当今最大网络威胁。研究发现,与伊朗政府相关的Pay2Key组织仅用3小时即完成加密攻击,而Akira组织从入侵到加密全程不超过4小时。更值得警惕的是,借助AI工具的"业余黑客"正大幅提升攻击频率,尽管技术粗糙,但海量低质攻击可能掩盖更隐蔽的高级威胁,给企业安全防御带来严峻挑战。
Alaya Studio联合多所顶级大学开发的"生成式世界渲染器"实现了虚拟游戏画面与真实视频间的双向转换。该系统通过从《赛博朋克2077》和《黑神话:悟空》收集400万帧高质量数据,训练AI理解材质、光照等视觉要素。创新的ReShade数据采集技术和VLM评估方法解决了传统合成数据的局限性,在材质识别和场景编辑方面取得突破性进展,为游戏开发、影视制作和创意设计提供了强大工具。
Nvidia收购Slurm工作负载管理器开发商SchedMD后,业界担忧这家芯片巨头可能借此优待自家硬件,削弱AMD、Intel等竞争对手的性能表现。Slurm运行于全球约60%的超级计算机上,Meta、Mistral、Anthropic等公司均在使用。分析师指出,尽管Nvidia承诺保持开源中立,但其对开发路线图的掌控仍构成"战略依赖风险"。专家建议企业多元化采购GPU,并在合同中争取硬件平等支持条款。
北京大学等机构联合发布DataFlex框架,这是首个统一的数据中心化动态训练系统。该框架让AI训练从"填鸭式学习"升级为"智能化学习",通过动态数据选择、配比调整和权重分配,显著提升模型性能和训练效率,同时保持与现有训练流程的完全兼容性。