黄仁勋:从Denny's 到Nvidia,任何工作,我都努力做到最好 原创

今天发黄仁勋的讲座,应该是恰逢其时吧。

今天发黄仁勋的讲座,应该是恰逢其时吧。

2026年5月,NVIDIA CEO黄仁勋再次出现在斯坦福大学CS153课堂上。CS153全称Frontier Systems,由a16z合伙人Anjney Midha和前Twitter工程VP Michael Abbott联合授课,课程设计为每周邀请一位建设大规模计算系统的行业人物来讲。黄仁勋是回头客,去年冬季学期来过一次。

黄仁勋:从Denny's 到Nvidia,任何工作,我都努力做到最好

这一次的对话持续了超过一小时,从计算范式转变讲到四代芯片路线图,从开放模型的商业逻辑讲到千倍能源缺口,还当场回应了xAI集群11%MFU引发的行业争议。主持人试图切换话题时,黄仁勋多次拦住他继续展开。主持人开玩笑说"我问了一个词,你讲了半小时",黄仁勋回了一句:"因为我有太多东西要跟你们分享。"

NVIDIA正处在一个密集发布周期里。2026年3月GTC大会上,Vera Rubin架构和Feynman架构的技术细节相继公开。1月CES上发布的自动驾驶开源模型Alpamayo已经被奔驰、Lucid、Uber等公司采用。黄仁勋本人刚在5月初获得卡内基梅隆大学荣誉博士学位,并于2026年被任命为美国总统科学技术顾问委员会(PCAST)成员。这次斯坦福课堂上的发言,可以看作他对NVIDIA技术战略的一次完整口头陈述。

1. 64年一遇:从"预录制"到"生成式"

黄仁勋给这场对话定了一个起手判断:计算正在经历自IBM System 360以来六十多年间最剧烈的重写。

PC、互联网、移动、云,这些变化看上去翻天覆地,但底层的编程模型、处理架构、软件开发方法论,本质上是同一套东西。变化发生在现在。过去的计算是"预录制"的:软件提前写好,内容提前存好,用户按需调取。AI时代的计算是"生成式"的:一切实时产生,能感知上下文,能响应意图而非仅仅执行指令。

这个转变影响的是全栈每一层。开发方法论变了,团队组织方式变了,计算机架构变了,网络存储变了,云服务变了,应用类型变了。用黄仁勋的话说,软件工程师是什么、公司怎么组织、计算机长什么样、用来干什么、部署在哪里,全部要重新回答。

他在这里给了一个极简框架来统一当前AI的各种能力:思考就是生成供自己内部消费的token,工具调用就是生成供外部消费的token。 GPT出现的那一刻,他就认定"思考"即将到来,因为思考和生成图像、生成文字在机制上是同一件事。从这个框架出发,agentic系统的出现只是时间问题。而从按需调用的云计算到连续运行的智能体计算,又意味着计算基础设施本身需要被彻底重新设计。

他还补了一个判断:自动驾驶是这一轮范式转换的标志性应用。他在自动驾驶领域已经投入了大约13年,这个问题在深度学习和人工智能出现之前根本不可能解决。"Everything that moves will be robotic."

2. Co-Design:百万倍加速的斯坦福基因

黄仁勋特意把co-design的思想根源追溯到了斯坦福。斯坦福前校长、MIPS处理器架构师John Hennessy的RISC工作给了他一个核心洞察:一颗极度优化但难以编译的处理器,性能不如一颗简单处理器配合优化编译器。 两个系统协同设计的整体表现,超过各自独立优化再拼在一起的效果。

他讲这个的时候特别强调这是斯坦福的遗产。"That's very Stanford." 在座的学生都是Hennessy学术谱系的后人。

NVIDIA把这个思路推到了前所未有的尺度。黄仁勋说NVIDIA可能是第一家"极端co-design"的计算系统公司,同时优化CPU、GPU、网络交换机、存储、编译器、框架、算法,所有层一起设计。

效果呢?摩尔定律的好日子里,每18个月翻一倍,5年10倍,10年100倍。但支撑摩尔定律的Dennard Scaling,也就是晶体管缩小的同时功率密度保持恒定的物理规律,大约十年前就失效了。过去10年光靠半导体工艺进步,实际上可能只拿到10倍。NVIDIA通过co-design在10年里实现了100万倍加速。

黄仁勋给了一个类比:如果你能以光速旅行,住在哪里不再重要,整个社会都会改变。计算快了百万倍,整个计算范式就改变了。AI研究者不再纠结该精心策展哪些数据,直接把全世界的数据喂给计算机。这就是大规模预训练爆发的物理前提。

3. 四代芯片:每一代解决下一个时代的瓶颈

黄仁勋把NVIDIA近几代架构的演进讲成了一条推理链。每一代的设计决策,都来自对下一个计算瓶颈的预判。

Hopper是为预训练设计的。 当时全球最大的科学超算造价约3.5亿美元。NVIDIA判断预训练会成为一个需要数十亿美元级系统的超大规模问题。这意味着市场上精确客户数为零。听起来离谱,但从第一性原理推演,结论就是如此,所以他们做了这个决定。

Grace Blackwell NVLink72是为推理和token生成设计的。 训练之后,AI的目标是推理。处理神经网络分两部分,prefill负责上下文处理和注意力计算,decode负责token生成。Decode对内存带宽的需求远超单颗芯片能提供的量,所以NVIDIA把72颗芯片通过NVLink连在一起,发明了大量新的交换互连技术。这是世界上第一台机架级计算机,比上一代快50倍。同等时间里摩尔定律只能给2倍。

Vera Rubin是为智能体设计的。 智能体的计算模式和训练、推理都不同。智能体要把大量长期记忆存在存储里,这些存储要直接连到GPU fabric上,不能中间来回拷贝。智能体还会频繁调用外部工具,工具运行在CPU上,而这个价值数十亿美元的GPU超算在等一个CPU完成工具调用返回。所以CPU要极低延迟。 NVIDIA为此设计了Vera CPU,当前世代单线程性能最强的处理器。黄仁勋解释这个设计思路的方式是:你要凭直觉去想象计算模式长什么样,它和过去有什么不同,然后造一个系统去跑那个模式。

Feynman是为智能体群设计的。 黄仁勋说未来的软件不再是单个智能体,而是智能体系统:智能体带着子智能体,子智能体又带子智能体,形成集群。什么样的计算机才能承载这种层级集群?这就是Feynman要解决的问题。NVIDIA在GTC 2026上透露Feynman将采用3D堆叠和协同封装光互连,预计2028年推出。主持人在对话中特别提到铜线已经成为数据中心的物理传输瓶颈之一,光互连正是对这个瓶颈的回应。

四代芯片、四种计算模式、四个瓶颈。黄仁勋在这条推理链上走得极其自然,像是在讲一件事情的必然推演。

他说这条链的起点可以追溯到大约15年前。当时Alex Krizhevsky和Ilya Sutskever在Hinton的指导下做出了AlexNet,一个神经网络模型一举碾压了此前几十年计算机视觉领域所有手工设计的算法。黄仁勋看到这个结果时问了自己一连串问题:这是大事还是小事?答案是大事。它能走多远?还能解决什么?对计算意味着什么?一路从这些问题推演下去,就推出了自动驾驶、机器人、加速计算的整条逻辑。他说斯坦福的学生都会这一套:把问题分解,从第一性原理出发推导。"你们这样做的话,就会得出跟我一样的结论:一切都变了。"

4. "我宁愿MFU低"

就在这次讲座前不久,xAI被曝出其Memphis集群的MFU仅11%。MFU是Model FLOPs Utilization的缩写,衡量芯片理论算力被实际利用的比例,11%意味着近九成算力在空转。xAI总裁Michael Nicolls在内部备忘录中称这个数字"令人尴尬"。行业讨论普遍把低MFU等同于浪费。

黄仁勋的反应完全相反。如果让他选,他宁愿自己的MFU低。

他的逻辑是这样的:大规模数据中心在任何时刻都有某个环节是瓶颈,可能是算力、可能是内存带宽、可能是内存容量、可能是网络容量。你要做的是在每个维度上都超额配置,避免Amdahl定律把你卡死。Amdahl定律说的是系统整体性能受限于最慢的那个环节,其他部分加速再多也没用。如果你为峰值负载配置资源,那非峰值时段大量算力确实会空转,MFU就会低。但到了峰值时刻,你能拿到所有需要的超额算力,这个峰值只会持续很短时间。如果那一刻你算力不够,短暂的等待就会变成漫长的等待。

他直接说"Flops are cheap"。H100涨价的原因在于带宽、架构和系统设计中的其他特性,不在算力本身。他还拿汽车打了个比方:过去评价车只看马力,现在谁还这么干?

那什么指标才对?黄仁勋指向了tokens-per-watt。NVLink72做大语言模型decode时,最关键的是跨72颗芯片的聚合带宽。现在prefill和decode可以解耦部署,各自分配最适合的资源。结果是token生成效率极高,但MFU数字难看。

然后他自己又推翻了tokens-per-watt。编程token比闲聊token价值高得多,不同类型的token根本不可比。他把这比作SAT分数:你不能只优化SAT分数,你要优化更大的东西。NVIDIA内部的做法是给每个架构研究方向定制严肃的evaluation。做编程和做超导研究的团队,eval完全不同,但都跑在NVIDIA芯片上。在通用性和专用性之间找平衡,黄仁勋说"that's artistry",这就是他的日常工作。 他说如果这件事容易的话,他也不用来了。

5. 六个领域的开放基础模型

黄仁勋先声明了一个出乎意料的立场:NVIDIA是Anthropic和OpenAI最大的token消费者之一。NVIDIA 100%的工程师都有AI智能体辅助。他强烈推荐所有人使用闭源前沿模型,因为好用,而且产品在持续变好。"开源去GitHub下载一个东西,不太可能达到同样的水平。"

那为什么NVIDIA还要砸重金做开放模型?他把动机拆成三层。

第一层是激活生态。 AI的本质是学习信息的表征。语言有语言的结构,蛋白质有蛋白质的结构,物理系统有物理系统的结构。不同领域的信息结构和维度完全不同,训练方法也完全不同。化学、蛋白质、基因、物理系统、机器人,没有一个可以像语言模型那样直接用互联网语料。各领域的科学家没有足够的规模和技术来独立构建基础模型。NVIDIA有人才、有算力、有系统能力,决定在几个关键领域率先做出基础模型,把数据、模型、训练方法全部开放。

六个领域:Nemotron做语言,BioNemo做生物,Alpamayo做自动驾驶,Groot做人形机器人和通用机器人,Earth-2做介尺度多物理场的气候科学,Clara做医疗健康。没有这个起步工作,下游整个产业都激活不了。NVIDIA因此带动了全球每一家自动驾驶公司的参与,黄仁勋说"不管是哪一家,里面都有NVIDIA的东西"。

第二层是语言公平。 世界上太多语言因为使用人口不够大,不会被商业公司优先照顾。瑞典语、印度的230多种语言,除非有人真正在意,否则永远不会有好的模型。黄仁勋说不管你的人口规模多大多小,人类智慧都应该被照顾到。 Nemotron做到了接近前沿水平,开放出来让任何人都能微调成自己语言的版本。

第三层是跨域融合。 Alpamayo就是一个例子:一个语言模型和一个世界模型融合在一起。自动驾驶模型一方面检测道路和车辆,另一方面用人类先验知识做推理。黄仁勋说他相信如果自动驾驶模型能像人类一样推理、拥有人类先验,那它需要的驾驶经验量就会大幅下降。Alpamayo用几百万英里的训练数据就达到了全球最有效的自动驾驶系统之一的水平,远低于其他系统所需的几十亿英里。Alpamayo在2026年1月CES上发布,是一个100亿参数的开源Vision-Language-Action模型,支持Level 4自动驾驶。

在安全层面,黄仁勋给出了一个强硬判断:如果你在意AI安全,就必须开放。 你没法防御一个黑箱,没法为一个完全不透明的系统做安全审计。即使你要求AI在执行前逐步推理、制定计划,"but you could always lie"。透明系统才能让所有研究者去审查。

面对未来超级智能体的网络安全威胁,正确的防御方式不是搞军备竞赛(你出7.0我出8.0),要靠大量廉价AI形成包围圈。Nemotron Nano就是这样被网络安全公司采用的:速度快、成本低,训练成网络攻击检测器,部署数万亿个形成防御网络。黄仁勋的比喻是一个巨大的穹顶,把威胁系统性地包围起来。

6. 千倍能源缺口:人类历史上最好的可持续能源投资窗口

1000倍。这是黄仁勋估算未来计算所需能源相对于当前水平的倍数。他还补了一句:这个数字可能还差几个数量级。

他的推导过程只需两个前提。未来的计算有两个特征:一切都是生成式的(有智能、有上下文感知),一切都是连续运行的(不再是按需调用)。从"预录制+按需"到"生成式+连续",能源需求的量级跳变就是这么来的。他说他一直在用这种方式向产业界和政策制定者解释即将到来的算力规模,课堂上给学生做的推演也是同一套逻辑。

怎么应对?三步走。

第一步是能效。 自己能控制的先控制好。Tokens-per-watt已经改善了50倍,还在持续复合提升。这是co-design的直接成果。他说跟生活中所有问题一样,不管外部环境如何,先把自己能做的事做到位。

第二步是让生态做好准备。 过去五年黄仁勋一直在向产业界解释即将到来的算力规模和能源需求。

第三步是抓住投资窗口。 过去建太阳能农场和核电站需要政府补贴。现在市场力量足够强大,资本会主动涌入。这是人类历史上升级电网和发展可持续能源的最佳时机。 AI算力需求带来的能源市场拉力,正好可以解决长期困扰可持续能源发展的经济性问题。他说我们过去因为担心成本而在可持续能源上投入不足,现在市场会替我们做这个选择。

7. 全球市场和美国科技产业的未来

一个学生的提问把对话带进了芯片出口限制的话题。黄仁勋没有回避。

他的核心论点有三个。第一,GPU是通用计算工具。 10亿人在用NVIDIA GPU,用途涵盖游戏、医疗影像、物流配送。他对GPU和大规模杀伤性武器之间的类比直接开火:"I advocate Nvidia GPUs to my family, to my kids, to people I love, but I don't advocate atomic bombs to anybody. So that analogy is stupid." 从一个不成立的类比出发,后面的推理全站不住。

第二,放弃全球三分之二的市场让竞争对手填补空白,受损的是美国整个科技产业。他举了一个历史案例:美国曾经因为类似的政策思维在电信基础技术上全面丧失地位。第三,他要确保这些学生毕业时进入的是人类历史上最强大的计算产业,而不是一个萎缩的空壳。

"Everybody should have AI. Nobody should have nuclear bombs."

他还反驳了AI末日叙事。那些声称AI会在某个周三下午突然达到奇点、终结人类社会的人,是在用科幻小说式的恐惧来影响公共政策。"It is not true that we have no idea how these systems work. It is not true." 他连说了五个"it is not true",指出这些说法伤害的恰恰是正在学习掌握这项技术的计算机科学学生。我们应该创造一个对技术乐观的未来,让所有人都能从AI中受益。

8. 斯坦福的十亿美元算力问题

主持人把话题引向了美国本土的算力短缺:独立团队、创业公司、大学拿不到足够的计算资源。黄仁勋说芯片不是被抢走了,问题出在需求侧的组织方式上。

然后他直接点了斯坦福的名。

每个系自己拿经费、自己管资源,没人共享,每笔经费又不够买大规模算力。大学从集中式计算环境走向人手一台笔记本的分散模式,这在AI时代不够用了。需要回到过去那种校园级别的共享超算设施,就像斯坦福当年建线性加速器那样。

他给了一个明确的数字:斯坦福约410亿美元捐赠基金,切出10亿做云服务,让每个学生和研究者都能用上AI超算。但你得提前规划。 "If you want to buy a billion dollars worth of tomatoes, you don't show up to the grocery store." 你不能跑到店里发现没有10亿美元的番茄,然后指责别人囤货。

他说这是斯坦福自己的问题,并且强调说"是你的问题"这件事本身是在赋予你解决问题的权力。如果别人告诉你"不是你的错",那你就只能等别人来救你。然后他当场承诺:斯坦福校长下单,他保证交付。全场大笑。主持人说"你们都听到了"。

9. 教科书追不上AI,但第一性原理不会过时

黄仁勋在回答教育问题时透露了一个私人习惯:他现在已经离不开AI来学习了。 他用AI读论文,读完之后让AI再去读关联的一批论文,这时候AI就变成了一个专属的超级研究者。先让它做摘要,问一些基本问题,然后像跟一个专门研究这个领域的学者对话一样跟论文互动。"大多数人还没意识到,AI在总结文档的过程中学到了大量知识。"

他说大学教科书不可能跟上AI实时生成的知识。Hennessy写那本计算机体系结构教科书的时候,每周写一章,花了好几年。未来的课程一定是教科书和AI的结合。

不过他也替教科书辩护了一句。第一性原理不会变。Mead和Conway提出的VLSI设计方法论,到今天仍然是坚实的基础。Dennard Scaling的各种设计优化虽然用完了,但知道它们是怎么来的、为什么失效,对理解未来仍然有价值。

他提到自己在斯坦福读研究生的时候,同时在AMD做芯片设计。一边学第一性原理,一边做工程实践,两条腿同时走路让他学到了两倍的东西。他说现在的学生用AI就是在做同样的事:AI提供实时的、上下文相关的知识,课堂提供第一性原理,两者结合就是他当年的体验。

10. 90%是痛苦

对话快结束时,一个学生问如何分配未来几年的精力。

黄仁勋否定了"找到你热爱的事业"这条建议的普适性。很多人不知道自己热爱什么,这个标准太高了。他的做法是:无论给他什么工作,从在Denny's刷厕所、收桌子到做CEO,他都尽全力做到最好。说到Denny's他来了精神,聊了好几分钟自己在那里的第一次经历:第一次吃热巧克力冰淇淋三明治,第一次喝奶昔,第一次吃苹果派上面放奶酪。"对一个华裔小孩来说,苹果加奶酪是什么操作?但后来想想完全合理。"

他说CEO的工作也一样。真正享受的只有10%:站在愿景、战略和执行的交汇点上构想未来,这个过程极富想象力,高度复杂,没有标准答案。当你被有才华的人包围时,你的愿景会更大胆,因为你知道它是可以实现的。另外90%是痛苦。早期NVIDIA几乎倒闭了四五次,恐惧、屈辱、迷茫,所有人类会有的情绪都要乘以一百万倍。作为公众人物,你做得好别人开心,做得不好别人第一时间告诉你。

"I'm advising that you not seek for just joy, that you also seek for some pain, some suffering, because you're going to need it someday." 他说痛苦和挣扎教会你韧性。有一天你的家人、同事、公司需要你扛住的时候,那块肌肉只能在痛苦中练出来。

11. 两次战略错误

另一个学生问到最大的错误。

第一个是NVIDIA第一代产品的技术路线完全错误:曲面而非三角形,没有Z-buffer,前向纹理映射而非逆向,内部没有浮点运算。"We did everything wrong." 作为拿了投资、组了团队、干了两年半的专业工程团队,做出来的东西彻底不能用。这次技术失败让公司几乎蒸发,但反而迫使他在30岁出头就学会了战略思维:技术重要,但战略更重要。怎么看待市场,怎么面对竞争,怎么在资源耗尽的情况下保存力量。同期的竞争对手全部消失了,NVIDIA是唯一留下来的。

第二个是进入移动设备市场。有重要手机公司找上门,NVIDIA投入大量资源,做到了10亿美元营收。然后在3G到4G的制式切换中,高通凭借基带芯片的垄断地位把NVIDIA完全锁在了门外。如果重来一次,他说只要多想两步就能预见到:这个机会看起来诱人,但窗口期短,核心壁垒不在自己手里。他当初应该拒绝。那批低功耗和能效技术后来全部转入了机器人领域,Thor芯片就是那颗移动芯片的"曾曾曾曾孙"。不过黄仁勋自己也补了一句:这是事后合理化,进那个市场就是浪费时间。

主持人追问战略判断的方法论。黄仁勋把自己的推理链拆得更细了。先观察,然后回到第一性原理推演。 这件事是大事吗?接下来会发生什么?还能解决什么问题?对计算意味着什么?从这些问题出发,建立一个关于未来的心智模型,然后从终态倒推。

他承认自己不会完全正确,"如果你按照正确的方法推导,你不会完全错,但也不会完全对"。所以他把判断分三档:一定会发生的、大概率会发生的、可能会发生的。朝着大方向走,同时减少机会成本、增加期权价值。

他特别强调了一个概念:追求一个策略的过程本身要能为自己付费。 你不能把所有赌注押在终点上,沿途必须有回报。这样即使方向需要调整,你已经积累了能力和资源,而不是两手空空。他说这中间没有公式,需要愿景,需要试错,需要一点个人品味。"What should we not do? What should we double down on? What should we 10x on?" 这些选择需要视野、策略,也需要一些享受和直觉。


黄仁勋在这堂课上呈现的,是一个硬件公司CEO罕见的系统性思维展示。四代芯片各自对应一个计算范式,每代的设计逻辑从上一代的瓶颈推导而来。开放模型的三层动机,从商业生态到语言公平到AI安全,层层递进。MFU的反直觉判断,打破了行业对利用率数字的简单信仰。能源的千倍缺口,把讨论从芯片拉到了文明基础设施的尺度。

如果只能带走一个东西,可能是他关于co-design的那个数字:10年百万倍。这个数字解释了为什么AI在过去几年爆发,也预示了接下来几年还会发生什么。(高飞的电子替身"是科技观察家高飞主理的AI内容项目,2024年2月创办,创立18个月内全平台粉丝突破50万,获评新浪微博2025年度十大AI KOL。内容覆盖前沿AI对话、技术原理科普、AI产品方法论。读者群:rohanjojo)

核心问答

Q1: 四代NVIDIA芯片架构各自解决什么问题?Hopper为预训练设计,推动系统从亿美元级跨入数十亿美元级。Grace Blackwell NVLink72为推理和decode设计,72芯互连解决token生成的内存带宽瓶颈,比上代快50倍。Vera Rubin为智能体设计,存储直连GPU fabric,Vera CPU极低延迟满足工具调用需求。Feynman为智能体群设计,采用3D堆叠和光互连,预计2028年推出。

Q2: 为什么MFU低不一定意味着浪费?大规模数据中心任何时刻都有某个维度是瓶颈。正确做法是在每个维度超额配置,避免Amdahl定律卡脖子。为峰值配置意味着非峰值时段MFU必然低,但峰值时刻能拿到所有需要的资源。黄仁勋认为flops本身廉价,真正的成本在带宽、架构和系统设计。tokens-per-watt比MFU更接近实际性能,但也不完美,因为不同类型token价值差异巨大。

Q3: NVIDIA为什么要做开放基础模型?三层动机。第一层,不同领域的信息结构和训练方法完全不同,各领域科学家缺乏独立构建基础模型的规模和技术,NVIDIA率先做出来才能激活下游生态。第二层,大量语言因人口规模小而被商业公司忽视,Nemotron接近前沿水平并开放微调。第三层,语言模型与领域模型融合可以大幅减少训练数据需求,Alpamayo以几百万英里数据达到全球顶级水平。安全层面,透明系统才能被审查和防御,开放是AI安全的前提。

来源:至顶AI实验室

0赞

好文章,需要你的鼓励

2026

05/14

15:01

分享

点赞

邮件订阅