GPU算力为什么不是大宗商品?Neo Cloud公司有何竞争壁垒? 原创

几年前如果你在硅谷问大多数人,GPU云会不会被商品化,得到的回答几乎一致:会。逻辑很简单,大家用的都是同一家芯片,服务看起来差不多,价格战迟早把利润压平。

几年前如果你在硅谷问大多数人,GPU云会不会被商品化,得到的回答几乎一致:会。逻辑很简单,大家用的都是同一家芯片,服务看起来差不多,价格战迟早把利润压平。

GPU算力为什么不是大宗商品?Neo Cloud公司有何竞争壁垒?

在FirstMark合伙人Matt Turck主持的MAD Podcast最新一期节目中,Lambda联合创始人兼CTO Stephen Balaban用了一个多小时解释为什么这个判断从根本上就是错的。Lambda是最早一批neo cloud(新型GPU云服务商),2012年由Stephen和双胞胎弟弟Michael创立,从面部识别API起步,中间做过帽子里藏摄像头的Lambda Hat和早期AI图像生成产品Dreamscope,最终转型为GPU云服务商。云业务目前接近10亿美元年化营收。

2025年11月,Lambda完成了TWG Global领投的超15亿美元E轮融资,估值约59亿美元(截至2026年5月Sacra数据),正在筹备2026年下半年的IPO。2026年5月,Stephen从CEO转任CTO,聘请曾任Sprint CEO和SoftBank Group International CEO的法国人Michel Combes出任新CEO。Stephen在这期播客中展示了一个典型CTO的思维方式:他从最底层的物理学开始,逐层向上走过AI算力这门生意的每一层,讲清楚它由什么构成,为什么它不可能被商品化,以及一家neo cloud的竞争壁垒到底建在哪里。

1. "所有说GPU会贬值的人全搞错了"

Stephen的核心论点是:云计算从来都不是一种商品服务。 它是一种高度垂直整合的复杂服务,横跨土地权益审批、建筑施工、高性能计算设计、软件虚拟化和上层云服务等多个层次。全球市值最高的几家公司(Amazon、Microsoft、Google、Oracle)全都在做云计算,原因就是这是一门好生意。

Neo cloud不是什么"略有不同的云服务"。它本质上就是为AI时代设计的云服务。

那么这个市场最终会变成赢家通吃吗?Stephen给了一个很有用的分析框架。当一个行业的护城河来自技术壁垒、资本门槛和经济规模时,市场结构倾向于寡头竞争,就像传统云市场有AWS、Azure、GCP共存。只有当护城河主要来自网络效应时,市场才会走向赢家通吃。Neo cloud的壁垒在技术和资本,不在网络效应,所以会是多个大玩家并存的格局。

现在美国有一个论点是GPU租赁价格在下跌,Stephen给出了一个很具体的反驳。

GPU租赁市场有两种完全不同的定价方式。一种是on-demand,按需租用,按小时计费,随时可以开机关机,类似出租车打表,价格高。另一种是长期合约,一签一年甚至更久,单价低很多但必须承诺用满。两者的价格水平差距很大,按需可能是每小时3美元,长期合约可能只要1.5美元。

Bloomberg上有追踪H100租赁价格的指数(如Silicon Data编制的SDH100RT),这类指数看起来在下降。Stephen指出问题出在方法论上。他的意思用一个简单的例子可以看清楚:假设上个月市场上80%的交易是按需租用、20%是长期合约,加权均价大约是2.70美元。这个月按需价格涨到了3.20美元,长期合约也涨到了1.70美元,两个都在涨。但同时,签长期合约的客户变多了,比例从20%变成了60%。这时候加权均价反而降到了2.30美元。指数显示"价格下跌",但实际上两种价格都在涨,跌的是混合比例。

Lambda实际观察到的情况就是这样:按需价格和长期合约价格都在保持稳定甚至上涨。SemiAnalysis 2026年4月发布的数据也印证了这一点:H100一年期合约价格从2025年10月的每小时1.70美元涨到了2026年3月的2.35美元,涨幅约40%。

更让人惊讶的是:Lambda 2023年部署的H100,现在的租赁费率比2023年还高。

Lambda是最早的neo cloud之一,拥有从会计角度已经完全折旧完毕的GPU。大多数公司采用约6年的会计折旧周期,但会计折旧周期不等于可用寿命,可用寿命又不等于经济可用寿命。那些声称GPU三到五年就会被淘汰的人,从一开始就搞错了。需求持续走高是推高租金的直接原因,GPU的实际可用寿命远超市场预期。

既然需求这么旺盛,如果模型变得更高效、推理效率提升10倍呢?是否意味着GPU需求会回落?

Stephen的回答是:依然不会。 效率提升10倍的结果是所有人可以处理10倍的token量,全球在任何时刻的算力总量是固定的,效率提升只会解锁更多应用场景。Scaling law还看不到尽头。这条经验规律说的是,往模型里灌入更多计算量和更多数据,产出的智能水平会持续提升。只要这条规律继续成立,模型能力就会持续提升,AI可覆盖的市场就会不断扩大。最早这个锥体只包含客服替代品和搜索替代品,现在已经延伸到大量软件工程岗位的替代或增强。

"It's pretty clear that we have an amazing system that can take in money and output software." Stephen说这话时提到了Opus 4或5的发布。投入资金,产出软件,这条路径已经成立。只要这条路径在,算力需求就不会有天花板。

2. 把算力还原到焦耳和分子

Stephen喜欢把所有东西还原到SI单位制来讲。SI是国际单位制(Système International),就是焦耳、瓦特、米、秒这套物理学基本度量体系。当人们谈论FLOPS、GPU hours、tokens、MFU的时候,其实在谈论同一条物理管线上不同位置的度量。

左端是能量输入:光子(太阳能)或天然气分子。经过发电厂转换为焦耳每秒(即瓦特),这一步有发动机效率损耗。电力进入数据中心后,冷却系统要消耗一部分,这部分的效率用PUE来衡量,全称Power Usage Effectiveness,数值越接近1说明冷却能耗越低。剩余的电力驱动服务器中的GPU、网络和存储设备,产出每秒浮点运算次数,也就是FLOPS。FLOPS被模型训练或推理消耗,转化为tokens每秒。再往上一层,终端用户将token转化为实际可用的智能输出,这里还有一层效率,MFU衡量的就是模型在可用算力中实际利用了多少。

整条链路,从光子到token,每一步都有效率损耗,每一步都有可优化的空间,每一步也都有成本。

这条管线的成本结构在Stephen的描述中呈金字塔分布。他给出了一组按每GW计算的具体数字:

发电环节:每兆瓦200到300万美元,即每GW 20到30亿美元。数据中心建筑以及机械、电气、管道等MEP设备:每GW 100到150亿美元。服务器和计算设备:每GW 350到450亿美元。

三层加起来,一个GW级AI设施的总投资接近500亿美元。 服务器部分在整个资本开支中占绝对大头,服务器的物料清单里GPU是最大的成本项。最近HBM内存的价格也在大幅上涨。HBM是高带宽内存(High Bandwidth Memory),堆叠在GPU芯片上方,负责高速喂数据给GPU运算单元,是决定GPU性能上限的关键部件。能生产HBM的供应商全球只有Samsung和SK Hynix这几家。

3. 卡在最底层的瓶颈

500亿美元的金字塔搭起来之前,首先得有地方放它。

Stephen把整个行业的核心瓶颈浓缩成三个词:land, power, shell。 三个词各指一件具体的东西。

Land不是说你买不到地。空地到处都有。瓶颈在于entitled land,已经拿到政府权益审批、允许在上面建数据中心的土地。光有审批还不够,这块地还得绑定公用事业公司的兆瓦级电力承诺。一块空地从选址到拿到entitlement可能要走一两年的流程,电力承诺要跟当地电网单独谈。这种"已就绪"的土地,在全美国是稀缺品。

Power就是这个电力承诺本身。一个GW级设施要消耗十亿瓦特,相当于纽约市总用电量的五分之一。电网不会随时有这么大一块富余容量等着你用,新的传输线路和变电站建设周期往往以年计。

Shell是数据中心本身的建筑外壳和内部的MEP设备,也就是机械、电气、管道系统。发电机、UPS、配电柜、冷却管路,每一样都有自己的供应链和交付周期。Stephen提到,具体到单个项目,瓶颈可能卡在发电机或UPS(不间断电源,负责在市电中断的瞬间接管供电,保证服务器不停机)上。但放到整个行业来看,真正制约扩张速度的是这三样东西的交集:entitled的土地、承诺到位的电力、建好的壳。有钱有GPU,没有这个交集,就无处落地。

数据中心的建设也开始遇到社区层面的阻力。Stephen认为社区有权参与讨论,但他指出其中存在大量误导信息。最常见的一个说法是"数据中心大量消耗水资源"。实际情况是,所有部署Blackwell或Rubin级GPU的现代数据中心,用的是闭路直接到芯片的液冷系统(direct-to-chip liquid cooling),连接干式冷却器(dry cooler),蒸发量接近零。蒸发冷却塔确实耗水,但美国几乎没有新建项目还在用蒸发冷却。

另外一个经常被忽略的事实是,大多数新建数据中心实际上在加强电网。它们会在自己的围墙内建设发电设施,直接给数据中心供电而不经过公共电网的电表,行业术语叫behind-the-meter。除了自发电,还会配套建设电池储能系统,在用电低谷储电、高峰放电,为当地电网提供额外的容量和韧性。Stephen认为行业需要做更好的沟通,把数据中心带来的工作岗位、税收和电力基础设施改善讲清楚。有时候社区甚至不知道AI数据中心里跑的就是他们每天在用的ChatGPT。

4. "大多数neo cloud连一个真正的云服务都跑不起来"

两家公司拿到同一块芯片,怎么从中榨出更多价值?Matt Turck直接问了这个问题。Stephen的回答从折旧成本切入。

GPU每小时成本中最大的一块是折旧。利用率是折旧成本的乘数因子:如果利用率只有50%,每小时的折旧成本就翻倍。能把利用率拉高的关键是云软件,让客户方便地按需启停GPU。没有这层软件,就没法做按需出租,也就没法收取比批发价高得多的零售价。Stephen说了一句很尖锐的话:大多数neo cloud其实连一个真正的云服务都跑不起来。 很多公司既没有按小时出租的基础设施,也没有让客户自助启停的能力。

Lambda的核心产品之一是One-Click Cluster。想象你有一万张GPU的集群,要把它切成客户可用的分区。这件事比听起来复杂得多。你需要同时分割三层网络:负责存储通信的in-band网络、用于传输模型权重和激活值的高速互联compute fabric、以及用来远程管理硬件的out-of-band监控网络。第三层网络连接的是BMC和DPU两类芯片,BMC是每台服务器主板上的管理控制器,可以在操作系统之外远程开关机、查看硬件状态;DPU是专门处理网络和安全任务的辅助处理器,替GPU分担杂活。

每一层都要协调切割,还要保证GPU的HBM内存可以直接互相读写、不经过CPU中转,这种能力叫RDMA,远程直接内存访问。把一堆裸金属服务器转化为一个可分区、同时保持高性能互联的云环境。裸金属的意思是没有虚拟化层的物理机器,你租到的就是一整台实体服务器。要在这个基础上做到弹性分区,需要的软件投入在几亿到上十亿美元的量级。 大多数neo cloud没有做过这种投入。Lambda的产品可以在网页上一键给你分配16到4000张GPU,这在neo cloud空间里几乎是独有的。

回到Stephen一开始对"商品化"论断的反驳:如果你去问一个传统数据中心的房东,数据中心里面到底在发生什么,他大概会告诉你"我们是做房地产的"。他们把具体的事情外包给了总承包商,总承包商也不知道机柜里跑的是什么。这就是为什么说cloud computing是一门完全不同的生意。光有GPU和电力远远不够,上面还有几十层软件需要做对。

5. CUDA只是水,cuDNN才是引擎

Lambda的云软件是建在Nvidia的技术栈之上的,而这个技术栈本身就是一道巨大的护城河。

所有人都说CUDA是Nvidia的护城河。Stephen对这个判断做了一个有意思的修正:CUDA只是"大家都在游泳的水",真正的壁垒在更上层。

cuDNN是Nvidia的深度神经网络计算库,本质上是一个深度调优的矩阵乘法引擎,内置了Winograd滤波等各种加速算法。如果你自己去写矩阵乘法实现,得到的FLOPS会远低于用cuDNN的效果。NCCL是Nvidia的网络通信优化库,它会感知InfiniBand或以太网的拓扑结构,自动优化GPU之间的集体通信操作。这类操作是分布式训练的基本动作:比如reduce-all是让所有GPU把各自算出的梯度汇总求平均,broadcast是把一份数据从一块GPU广播给所有其他GPU。这些操作遵循一套叫OpenMPI的并行计算通信标准。NCCL的价值在于,它能根据你的网络拓扑自动选择最优的通信路径,让这些操作跑得尽可能快。这对分布式训练和前沿推理至关重要,因为现在的前沿模型已经大到无法装进一台服务器甚至一个机柜。

Stephen所说的前沿推理(frontier inference)指的是像Opus或ChatGPT 5.5这样的超大模型,必须被分片到多台服务器上,利用高速互联做通信。训练一个模型时有两个方向的计算:前向传播是把数据喂进去、让模型算出一个结果,本质上和推理是同一个动作;反向传播是把结果和正确答案之间的误差沿网络反向传回去,调整每一层的参数,这一步计算量更大,大约占训练总算力的2/3。一个重要认知是:适合大规模训练的基础设施可以直接复用于前沿推理。 这让基础设施的经济性大幅提升,也让GPU集群的利用率可以更高。

Lambda自身部署的芯片覆盖了Nvidia几乎所有世代:从V100、A100、H100、H200、B200、GB200、B300到即将到来的VR200。Stephen对Nvidia生态的评价非常直接:Nvidia是唯一一家在所有主要云平台上都可用的芯片提供商,这本身就是巨大的平台优势。 多硅生态确实存在,最大的实验室已经在用不同类型的芯片做推理和训练。但要超越cuDNN和NCCL构成的软件栈,新进入者面临的门槛极高。

6. H100三年后租金更贵了

前面算过了一个GW级设施的成本金字塔:发电20到30亿,数据中心100到150亿,服务器350到450亿,加起来接近500亿美元。这笔钱从哪来?

Stephen把融资结构分成了两种完全不同的逻辑。

按需云业务的融资看的是Lambda自身的信用质量。但长期off-take协议,也就是大客户以年为单位签下的算力采购承诺,融资看的是最终客户的信用质量。后者的操作方式是把off-take协议、对应的GPU集群和物业打包放进一个特殊目的实体(Special Purpose Vehicle),然后到私募信贷市场做资产支持贷款。这个市场已经相当活跃。

按需云的融资还不如有投资级off-take方那端成熟,但正在快速追上来。原因在于债权人和贷方开始认识到一个反直觉的事实:Nvidia GPU是一种保值且容易做信用评估的资产。 Lambda 2023年部署的H100,2026年的出租价格高于2023年。这让债权人看到这不只是现金流稳定的资产,还是一种可能增值的资产。

Stephen观察到,过去一年最大的变化就是信贷市场开始把GPU视为成熟的资产类别,资金正在涌入。至于是否会出现GPU算力的期货或衍生品市场,他认为还太早。先需要一个充分发育的现货市场,然后才可能叠加更复杂的金融产品。

GPU的需求为什么看起来在地理上也没有天花板?因为AI的工作方式跟传统应用完全不同。Stephen举了个直观的例子:你在ChatGPT或Claude里发出一个请求,出去转一圈回来,一份研究报告已经生成好了。对于这类长时间运行的agent workflow,延迟完全无关紧要,唯一重要的是每token成本。 传统云业务对延迟极度敏感,因为跑的是ATM后端和在线交易这类应用。但新一代AI应用完全不是这种模式。唯一需要考虑地理位置的原因是数据治理:一些国家希望本国公民使用的AI算力跑在自己国家的服务器上。

这也解释了Lambda为什么聚焦北美市场。Lambda目前在美国、加拿大和墨西哥运营,在韩国首尔通过投资人SK Telecom运营过数据中心,但战略重心聚焦美国。不需要追延迟,就可以集中力量做一件事:把数据中心尽快立起来。

Lambda最初主要是数据中心的租户。现在正进入全垂直整合:自己找地、带着数据中心的全套工程图纸(basis of design)上桌谈判、自己融资并施工建设、装服务器、绑定长期off-take协议、全流程自己融资。Stephen转任CTO后的主要方向之一就是高速数据中心部署。他说世界上能做到高速部署的只有两家公司,xAI和Lambda。xAI 2024年将10万块H100从开工到上线压缩到了122天,刷新了行业纪录。Stephen认为Lambda可以追平甚至超越这个速度。

7. 6万美元的恐惧和一个半月的回本

Stephen自己说了一句话解释为什么Lambda走了一条非典型路径:你现在看到了这门生意有多复杂、多重资本、多不符合标准分类框架,就能理解为什么Lambda的投资人大多不是硅谷主流VC。所有投资人都赚到了钱,但他们往往来自更非传统的方向。

Lambda的起源和AlexNet论文发表在同一年。2012年,Stephen从Google Code上拉下了CUDA ConvNet的代码库(Google Code还在运行,可见年代之久远),用一台朋友那里买来的4块Nvidia GTX 580工作站训练卷积神经网络做人脸识别。他建了一个面部识别API,拿到了几千个用户,但没有产生多少收入。

同一时期Stephen还做了另一件事:他作为第一个员工加入了两位博士刚毕业的朋友Zach和Nico创立的Perceptio。这家公司在2013年就用iPhone的GPU图像库和OpenGL ES shaders在手机上本地跑卷积网络。OpenGL ES是手机GPU用来渲染3D图形的编程接口,shaders是里面负责逐像素计算的小程序,Perceptio把原本用来画画面的计算能力挪来跑了神经网络。Stephen后来回到Lambda全职工作,大约一年后Perceptio被Apple收购。iPhone上滑动照片可以识别人脸、搜索照片库的功能,部分技术源头就在那里。

Lambda随后做了一系列产品。其中一个叫Lambda Hat,是一顶帽檐里嵌着摄像头的棒球帽,每10秒拍一张照片,用来收集图像识别的数据集。这个产品没有成功,但Stephen去深圳住了一段时间,学会了设计PCB(印刷电路板,电子产品里承载和连接所有芯片的那块绿色板子)和做消费电子硬件。他后来说,这段经历打开了他的视野,让他意识到商业不只是写app。

真正的转折点出现在2015到2016年。Lambda做了一个叫Dreamscope的产品,用Google Deep Dream和Leon Gatys的风格迁移算法把照片变成画作。这是Midjourney之类产品的极早期形态。Dreamscope获得了百万级用户,处理了大约1500万张图片。问题是AWS账单飙到了每月4万美元。

他们做了一个让自己紧张的决定:花6万美元买了一组工作站搭建小集群来替代AWS。选工作站而不是服务器的理由是"最坏情况还能卖掉"。结果上线一个半月就回本了,之后AWS账单直接降到零。"我们省的钱比赚的钱还多。" 这个6万美元的赌注彻底改变了Lambda的方向。他们开始意识到,也许应该做计算能力供应商。

2017年Lambda开始卖工作站,做了300万美元营收。2018年1000万,2019年3000万。硬件业务峰值做到约2亿美元年化。云业务2019年正式上线,早期增长缓慢,2018到2020年想买大量AI算力的市场确实很小。

COVID期间尤其艰难。软件公司在家照常发版,远程办公甚至带来了更多需求。但Lambda当时还是硬件公司。码头关闭意味着完全无法出货,完全无法确认收入。Stephen记得那段时间站在团队面前说:"我们不确定能不能撑过去,但唯一能做的就是咬住牙跑过去,在解决问题的过程中让客户满意。"

Lambda的团队文化从早期就围绕"delight the customer"建立。Stephen在新员工入职的Lambda 101培训中会展示一张图:一只Linux企鹅坐在Lambda工作站前,在读GPT-2的论文,屏幕上显示着训练的loss曲线,loss是模型预测值和正确答案之间的误差,曲线往下走说明模型在变聪明。他告诉新员工:把自己放到这只企鹅的位置上,想想什么能让他开心。 发货团队的人提出在工作站箱子里放Lambda T恤。数据中心运维团队的人提出用白色机架做差异化。这些细节听起来小,但Stephen认为正是这种从下而上的客户导向帮助Lambda撑过了艰难时期。

坚持下来后,Lambda的云业务现在接近10亿美元年化营收,硬件业务已全部退出。做Dreamscope的四个人(Stephen、Michael、首席科学家Shuang Li、工程主管Steve Clarkson)全部还在Lambda。早期员工Mitesh Agrawal在公司待了约八年后离开,和另一位Lambda前成员Thomas Sohmers联合创办了Positron AI,一家做节能推理加速器的公司。2026年2月Positron完成了2.3亿美元B轮融资,估值超过10亿美元。Lambda的"黑帮网络"已经开始成形。

Michel Combes加入担任CEO是Stephen主动推动的。他说自己从来没有那种"必须做founder CEO"的自我执念,他在意的是技术和建一家跨时代的公司,做融资和日常管理对他来说是必须做的事,不是他喜欢做的事。Combes的履历横跨Sprint、SoftBank Group International、Alcatel-Lucent和Vodafone,是大规模资本密集型基础设施运营的老手。Stephen认为这正是Lambda下一阶段需要的。

8. "AI不会写软件,AI会成为软件"

Stephen转任CTO后,一部分精力放在高速数据中心部署上,另一部分放在更远的技术判断上。

他提出了一个叫neural software或neural OS的概念。理解这个概念最直观的方式是去ChatGPT或Claude里输入一个提示:用ASCII art渲染一个桌面界面,然后把模型当作操作系统来使用。点击图标、打开应用、跟它交互。你看到的不是LLM生成了一段代码然后执行,而是LLM本身在模拟软件的行为。

这跟vibe coding有本质区别。Vibe coding输出的仍然是人类可读的代码(Python或C),经过编译器或解释器执行,生成后是静态的。你可以想象一个渐变光谱:最左边是传统人类手写的软件,往右走是vibe coded的软件,再往右是实时生成的just-in-time vibe coded软件(比如一边用一边生成代码)。但光谱的最右端是neural software:没有代码在运行,一切都是模型的特征激活空间和上下文窗口中的状态变化。 好处是不会有bug,只有对提示的误解。

Stephen说Lambda已经有neural software的原型,学术界也有相关研究。距离大规模采用还有多远?他给了一个很坦诚的自我评估:"When I'm early on something, I tend to be about a decade to a decade and a half early." 他习惯性地比趋势早十年到十五年。所以他预估neural software在10到15年后开始被大规模采用。

Tesla的端到端自动驾驶其实已经是neural software的一种形态——接收视频输入,用神经网络做决策输出,用户体验就是驾驶体验。这个类比让neural software从概念变成了可触摸的现实:它已经存在了,只是目前的应用场景有限。

Lambda内部已经在实践另一个相关概念,Stephen称之为self-assembling software,自组装软件。把产品需求和用户反馈实时接入一个24/7运行的agent fleet,由agent去实现bug修复和功能开发。软件在发布之后才开始大规模开发,因为用户的反馈会驱动agent持续迭代。

下一步更激进。agent反过来向人类求助。不是人类说"帮我写代码",而是agent说"帮我去插一千块GPU""帮我注册一个API密钥""帮我去谈个合同"。人变成了agent的执行层。

Agent驱动的开发也在改变算力层本身的需求。Stephen观察到,agent工作时大量时间花在编译、跑自动化测试、搜索代码库这些传统CPU密集型任务上,并非全程消耗GPU推理算力。这意味着云服务商不能只卖GPU,还需要提供配套的CPU编排环境和安全隔离能力。

9. One person, one GPU

Stephen在2020到2021年间做B轮和C轮融资时,用一个历史类比来说服投资人。

Apple 1976年创立时的信条是 "one person, one computer"。Macintosh 1984年问世,但那时一人一电脑的目标还遥不可及。1994年互联网刚起步,仍然不是。2004年家庭宽带开始普及,差不多一户一台电脑了。2014年加上智能手机,才真正超过了一人一电脑。电商渗透直到近年来才显著提速。从信条提出到目标实现,Apple用了接近半个世纪。

Stephen选择one person, one GPU作为Lambda的信条,里面嵌着一层谦卑。他相信未来每个美国人的日常工作、娱乐和创作都需要至少一块GPU的算力。但他也承认,这可能同样需要几十年才能实现。

Matt Turck最后问了两个快速判断题。

什么被高估了?非软件工程领域的agentic workflow。原因在于agent循环要跑得好,必须有具体的、可自动验证的反馈机制。自动化测试对代码来说是天然的闭环。但"去帮我买一块地"这种任务没有可供模型长期迭代的抓地力。当然不是所有非代码领域都不行。CAD、计算机辅助制造、有限元分析、计算流体力学这些可以模拟和迭代的领域同样适用。关键判断标准是:这个任务有没有一个可自动化验证的反馈回路。

什么被低估了?Neural OS和自组装软件的概念,以及面向软件工程的agent驱动开发。Stephen觉得大多数人还没有真正体验过用Claude开10个agent同时构建一个项目是什么感觉。"They literally don't understand because they've never tried it." 他们根本不理解,因为从来没试过。


这期播客的思路:从最底层的物理学出发,逐层向上经过了AI算力这门生意的每一层。从光子和天然气分子到焦耳和瓦特,从PUE到FLOPS,从FLOPS到token,从token到最终用户的智能输出。然后从物理层跳到金融层,解释了这些基础设施如何被融资、如何被定价、为什么会升值。最后跳到更远的未来,描述了一种连代码都不需要的软件形态。

几个信息差:GPU租赁价格不降反升是结构性的;效率提升会扩大市场锥体而非缩小需求;大多数neo cloud的软件能力远不足以运营一个真正的云服务;GPU作为资产类别的金融化才刚起步。对于关注AI基础设施投资的人来说,这些构成了一组可检验的预测。

核心问答

Q1: 为什么GPU算力市场没有像预期那样被商品化?云计算是一种从土地权益到软件虚拟化的高度垂直整合服务,需要持续数亿美元级别的软件投入来实现集群分区、存储优化和网络编排。大多数neo cloud不具备这种能力,这使得真正有能力的玩家享有定价权。同时scaling law没有放缓,需求侧的市场锥体还在持续扩大。

Q2: Neo Cloud的核心竞争壁垒建在哪里?三层壁垒叠加。第一层是云软件编排能力,包括集群分区、三层网络协调切割和RDMA支持,让同一块芯片的利用率和收益最大化。第二层是数据中心的设计和施工能力,决定部署速度和成本。第三层是融资和资本运作能力,让大规模部署变得可持续。大多数neo cloud只有GPU,缺少上面的软件层和下面的基建层。

Q3: 为什么2023年部署的H100现在租金更贵了?需求持续走高是直接原因。更深层的原因是GPU的经济可用寿命远超市场预期,会计折旧周期约6年,但实际可用寿命更长。债权人开始将GPU视为一种可能增值的资产类别,信贷市场资金正在涌入。GPU的金融化才刚起步。

来源:至顶AI实验室

0赞

好文章,需要你的鼓励

2026

06/20

14:51

分享

点赞

邮件订阅