GPU算力为什么不是大宗商品？Neo Cloud公司有何竞争壁垒？原创

作者：高飞的电子替身

几年前如果你在硅谷问大多数人，GPU云会不会被商品化，得到的回答几乎一致：会。逻辑很简单，大家用的都是同一家芯片，服务看起来差不多，价格战迟早把利润压平。

在FirstMark合伙人Matt Turck主持的MAD Podcast最新一期节目中，Lambda联合创始人兼CTO Stephen Balaban用了一个多小时解释为什么这个判断从根本上就是错的。Lambda是最早一批neo cloud（新型GPU云服务商），2012年由Stephen和双胞胎弟弟Michael创立，从面部识别API起步，中间做过帽子里藏摄像头的Lambda Hat和早期AI图像生成产品Dreamscope，最终转型为GPU云服务商。云业务目前接近10亿美元年化营收。

2025年11月，Lambda完成了TWG Global领投的超15亿美元E轮融资，估值约59亿美元（截至2026年5月Sacra数据），正在筹备2026年下半年的IPO。2026年5月，Stephen从CEO转任CTO，聘请曾任Sprint CEO和SoftBank Group International CEO的法国人Michel Combes出任新CEO。Stephen在这期播客中展示了一个典型CTO的思维方式：他从最底层的物理学开始，逐层向上走过AI算力这门生意的每一层，讲清楚它由什么构成，为什么它不可能被商品化，以及一家neo cloud的竞争壁垒到底建在哪里。

1. "所有说GPU会贬值的人全搞错了"

Stephen的核心论点是：云计算从来都不是一种商品服务。 它是一种高度垂直整合的复杂服务，横跨土地权益审批、建筑施工、高性能计算设计、软件虚拟化和上层云服务等多个层次。全球市值最高的几家公司（Amazon、Microsoft、Google、Oracle）全都在做云计算，原因就是这是一门好生意。

Neo cloud不是什么"略有不同的云服务"。它本质上就是为AI时代设计的云服务。

那么这个市场最终会变成赢家通吃吗？Stephen给了一个很有用的分析框架。当一个行业的护城河来自技术壁垒、资本门槛和经济规模时，市场结构倾向于寡头竞争，就像传统云市场有AWS、Azure、GCP共存。只有当护城河主要来自网络效应时，市场才会走向赢家通吃。Neo cloud的壁垒在技术和资本，不在网络效应，所以会是多个大玩家并存的格局。

现在美国有一个论点是GPU租赁价格在下跌，Stephen给出了一个很具体的反驳。

GPU租赁市场有两种完全不同的定价方式。一种是on-demand，按需租用，按小时计费，随时可以开机关机，类似出租车打表，价格高。另一种是长期合约，一签一年甚至更久，单价低很多但必须承诺用满。两者的价格水平差距很大，按需可能是每小时3美元，长期合约可能只要1.5美元。

Bloomberg上有追踪H100租赁价格的指数（如Silicon Data编制的SDH100RT），这类指数看起来在下降。Stephen指出问题出在方法论上。他的意思用一个简单的例子可以看清楚：假设上个月市场上80%的交易是按需租用、20%是长期合约，加权均价大约是2.70美元。这个月按需价格涨到了3.20美元，长期合约也涨到了1.70美元，两个都在涨。但同时，签长期合约的客户变多了，比例从20%变成了60%。这时候加权均价反而降到了2.30美元。指数显示"价格下跌"，但实际上两种价格都在涨，跌的是混合比例。

Lambda实际观察到的情况就是这样：按需价格和长期合约价格都在保持稳定甚至上涨。SemiAnalysis 2026年4月发布的数据也印证了这一点：H100一年期合约价格从2025年10月的每小时1.70美元涨到了2026年3月的2.35美元，涨幅约40%。

更让人惊讶的是：Lambda 2023年部署的H100，现在的租赁费率比2023年还高。

Lambda是最早的neo cloud之一，拥有从会计角度已经完全折旧完毕的GPU。大多数公司采用约6年的会计折旧周期，但会计折旧周期不等于可用寿命，可用寿命又不等于经济可用寿命。那些声称GPU三到五年就会被淘汰的人，从一开始就搞错了。需求持续走高是推高租金的直接原因，GPU的实际可用寿命远超市场预期。

既然需求这么旺盛，如果模型变得更高效、推理效率提升10倍呢？是否意味着GPU需求会回落？

Stephen的回答是：依然不会。 效率提升10倍的结果是所有人可以处理10倍的token量，全球在任何时刻的算力总量是固定的，效率提升只会解锁更多应用场景。Scaling law还看不到尽头。这条经验规律说的是，往模型里灌入更多计算量和更多数据，产出的智能水平会持续提升。只要这条规律继续成立，模型能力就会持续提升，AI可覆盖的市场就会不断扩大。最早这个锥体只包含客服替代品和搜索替代品，现在已经延伸到大量软件工程岗位的替代或增强。

"It's pretty clear that we have an amazing system that can take in money and output software." Stephen说这话时提到了Opus 4或5的发布。投入资金，产出软件，这条路径已经成立。只要这条路径在，算力需求就不会有天花板。

2. 把算力还原到焦耳和分子

Stephen喜欢把所有东西还原到SI单位制来讲。SI是国际单位制（Système International），就是焦耳、瓦特、米、秒这套物理学基本度量体系。当人们谈论FLOPS、GPU hours、tokens、MFU的时候，其实在谈论同一条物理管线上不同位置的度量。

左端是能量输入：光子（太阳能）或天然气分子。经过发电厂转换为焦耳每秒（即瓦特），这一步有发动机效率损耗。电力进入数据中心后，冷却系统要消耗一部分，这部分的效率用PUE来衡量，全称Power Usage Effectiveness，数值越接近1说明冷却能耗越低。剩余的电力驱动服务器中的GPU、网络和存储设备，产出每秒浮点运算次数，也就是FLOPS。FLOPS被模型训练或推理消耗，转化为tokens每秒。再往上一层，终端用户将token转化为实际可用的智能输出，这里还有一层效率，MFU衡量的就是模型在可用算力中实际利用了多少。

整条链路，从光子到token，每一步都有效率损耗，每一步都有可优化的空间，每一步也都有成本。

这条管线的成本结构在Stephen的描述中呈金字塔分布。他给出了一组按每GW计算的具体数字：

发电环节：每兆瓦200到300万美元，即每GW 20到30亿美元。数据中心建筑以及机械、电气、管道等MEP设备：每GW 100到150亿美元。服务器和计算设备：每GW 350到450亿美元。

三层加起来，一个GW级AI设施的总投资接近500亿美元。 服务器部分在整个资本开支中占绝对大头，服务器的物料清单里GPU是最大的成本项。最近HBM内存的价格也在大幅上涨。HBM是高带宽内存（High Bandwidth Memory），堆叠在GPU芯片上方，负责高速喂数据给GPU运算单元，是决定GPU性能上限的关键部件。能生产HBM的供应商全球只有Samsung和SK Hynix这几家。

3. 卡在最底层的瓶颈

500亿美元的金字塔搭起来之前，首先得有地方放它。

Stephen把整个行业的核心瓶颈浓缩成三个词：land, power, shell。 三个词各指一件具体的东西。

Land不是说你买不到地。空地到处都有。瓶颈在于entitled land，已经拿到政府权益审批、允许在上面建数据中心的土地。光有审批还不够，这块地还得绑定公用事业公司的兆瓦级电力承诺。一块空地从选址到拿到entitlement可能要走一两年的流程，电力承诺要跟当地电网单独谈。这种"已就绪"的土地，在全美国是稀缺品。

Power就是这个电力承诺本身。一个GW级设施要消耗十亿瓦特，相当于纽约市总用电量的五分之一。电网不会随时有这么大一块富余容量等着你用，新的传输线路和变电站建设周期往往以年计。

Shell是数据中心本身的建筑外壳和内部的MEP设备，也就是机械、电气、管道系统。发电机、UPS、配电柜、冷却管路，每一样都有自己的供应链和交付周期。Stephen提到，具体到单个项目，瓶颈可能卡在发电机或UPS（不间断电源，负责在市电中断的瞬间接管供电，保证服务器不停机）上。但放到整个行业来看，真正制约扩张速度的是这三样东西的交集：entitled的土地、承诺到位的电力、建好的壳。有钱有GPU，没有这个交集，就无处落地。

数据中心的建设也开始遇到社区层面的阻力。Stephen认为社区有权参与讨论，但他指出其中存在大量误导信息。最常见的一个说法是"数据中心大量消耗水资源"。实际情况是，所有部署Blackwell或Rubin级GPU的现代数据中心，用的是闭路直接到芯片的液冷系统（direct-to-chip liquid cooling），连接干式冷却器（dry cooler），蒸发量接近零。蒸发冷却塔确实耗水，但美国几乎没有新建项目还在用蒸发冷却。

另外一个经常被忽略的事实是，大多数新建数据中心实际上在加强电网。它们会在自己的围墙内建设发电设施，直接给数据中心供电而不经过公共电网的电表，行业术语叫behind-the-meter。除了自发电，还会配套建设电池储能系统，在用电低谷储电、高峰放电，为当地电网提供额外的容量和韧性。Stephen认为行业需要做更好的沟通，把数据中心带来的工作岗位、税收和电力基础设施改善讲清楚。有时候社区甚至不知道AI数据中心里跑的就是他们每天在用的ChatGPT。

4. "大多数neo cloud连一个真正的云服务都跑不起来"

两家公司拿到同一块芯片，怎么从中榨出更多价值？Matt Turck直接问了这个问题。Stephen的回答从折旧成本切入。

GPU每小时成本中最大的一块是折旧。利用率是折旧成本的乘数因子：如果利用率只有50%，每小时的折旧成本就翻倍。能把利用率拉高的关键是云软件，让客户方便地按需启停GPU。没有这层软件，就没法做按需出租，也就没法收取比批发价高得多的零售价。Stephen说了一句很尖锐的话：大多数neo cloud其实连一个真正的云服务都跑不起来。 很多公司既没有按小时出租的基础设施，也没有让客户自助启停的能力。

Lambda的核心产品之一是One-Click Cluster。想象你有一万张GPU的集群，要把它切成客户可用的分区。这件事比听起来复杂得多。你需要同时分割三层网络：负责存储通信的in-band网络、用于传输模型权重和激活值的高速互联compute fabric、以及用来远程管理硬件的out-of-band监控网络。第三层网络连接的是BMC和DPU两类芯片，BMC是每台服务器主板上的管理控制器，可以在操作系统之外远程开关机、查看硬件状态；DPU是专门处理网络和安全任务的辅助处理器，替GPU分担杂活。

每一层都要协调切割，还要保证GPU的HBM内存可以直接互相读写、不经过CPU中转，这种能力叫RDMA，远程直接内存访问。把一堆裸金属服务器转化为一个可分区、同时保持高性能互联的云环境。裸金属的意思是没有虚拟化层的物理机器，你租到的就是一整台实体服务器。要在这个基础上做到弹性分区，需要的软件投入在几亿到上十亿美元的量级。 大多数neo cloud没有做过这种投入。Lambda的产品可以在网页上一键给你分配16到4000张GPU，这在neo cloud空间里几乎是独有的。

回到Stephen一开始对"商品化"论断的反驳：如果你去问一个传统数据中心的房东，数据中心里面到底在发生什么，他大概会告诉你"我们是做房地产的"。他们把具体的事情外包给了总承包商，总承包商也不知道机柜里跑的是什么。这就是为什么说cloud computing是一门完全不同的生意。光有GPU和电力远远不够，上面还有几十层软件需要做对。

5. CUDA只是水，cuDNN才是引擎

Lambda的云软件是建在Nvidia的技术栈之上的，而这个技术栈本身就是一道巨大的护城河。

所有人都说CUDA是Nvidia的护城河。Stephen对这个判断做了一个有意思的修正：CUDA只是"大家都在游泳的水"，真正的壁垒在更上层。

cuDNN是Nvidia的深度神经网络计算库，本质上是一个深度调优的矩阵乘法引擎，内置了Winograd滤波等各种加速算法。如果你自己去写矩阵乘法实现，得到的FLOPS会远低于用cuDNN的效果。NCCL是Nvidia的网络通信优化库，它会感知InfiniBand或以太网的拓扑结构，自动优化GPU之间的集体通信操作。这类操作是分布式训练的基本动作：比如reduce-all是让所有GPU把各自算出的梯度汇总求平均，broadcast是把一份数据从一块GPU广播给所有其他GPU。这些操作遵循一套叫OpenMPI的并行计算通信标准。NCCL的价值在于，它能根据你的网络拓扑自动选择最优的通信路径，让这些操作跑得尽可能快。这对分布式训练和前沿推理至关重要，因为现在的前沿模型已经大到无法装进一台服务器甚至一个机柜。

Stephen所说的前沿推理（frontier inference）指的是像Opus或ChatGPT 5.5这样的超大模型，必须被分片到多台服务器上，利用高速互联做通信。训练一个模型时有两个方向的计算：前向传播是把数据喂进去、让模型算出一个结果，本质上和推理是同一个动作；反向传播是把结果和正确答案之间的误差沿网络反向传回去，调整每一层的参数，这一步计算量更大，大约占训练总算力的2/3。一个重要认知是：适合大规模训练的基础设施可以直接复用于前沿推理。 这让基础设施的经济性大幅提升，也让GPU集群的利用率可以更高。

Lambda自身部署的芯片覆盖了Nvidia几乎所有世代：从V100、A100、H100、H200、B200、GB200、B300到即将到来的VR200。Stephen对Nvidia生态的评价非常直接：Nvidia是唯一一家在所有主要云平台上都可用的芯片提供商，这本身就是巨大的平台优势。 多硅生态确实存在，最大的实验室已经在用不同类型的芯片做推理和训练。但要超越cuDNN和NCCL构成的软件栈，新进入者面临的门槛极高。

6. H100三年后租金更贵了

前面算过了一个GW级设施的成本金字塔：发电20到30亿，数据中心100到150亿，服务器350到450亿，加起来接近500亿美元。这笔钱从哪来？

Stephen把融资结构分成了两种完全不同的逻辑。

按需云业务的融资看的是Lambda自身的信用质量。但长期off-take协议，也就是大客户以年为单位签下的算力采购承诺，融资看的是最终客户的信用质量。后者的操作方式是把off-take协议、对应的GPU集群和物业打包放进一个特殊目的实体（Special Purpose Vehicle），然后到私募信贷市场做资产支持贷款。这个市场已经相当活跃。

按需云的融资还不如有投资级off-take方那端成熟，但正在快速追上来。原因在于债权人和贷方开始认识到一个反直觉的事实：Nvidia GPU是一种保值且容易做信用评估的资产。 Lambda 2023年部署的H100，2026年的出租价格高于2023年。这让债权人看到这不只是现金流稳定的资产，还是一种可能增值的资产。

Stephen观察到，过去一年最大的变化就是信贷市场开始把GPU视为成熟的资产类别，资金正在涌入。至于是否会出现GPU算力的期货或衍生品市场，他认为还太早。先需要一个充分发育的现货市场，然后才可能叠加更复杂的金融产品。

GPU的需求为什么看起来在地理上也没有天花板？因为AI的工作方式跟传统应用完全不同。Stephen举了个直观的例子：你在ChatGPT或Claude里发出一个请求，出去转一圈回来，一份研究报告已经生成好了。对于这类长时间运行的agent workflow，延迟完全无关紧要，唯一重要的是每token成本。 传统云业务对延迟极度敏感，因为跑的是ATM后端和在线交易这类应用。但新一代AI应用完全不是这种模式。唯一需要考虑地理位置的原因是数据治理：一些国家希望本国公民使用的AI算力跑在自己国家的服务器上。

这也解释了Lambda为什么聚焦北美市场。Lambda目前在美国、加拿大和墨西哥运营，在韩国首尔通过投资人SK Telecom运营过数据中心，但战略重心聚焦美国。不需要追延迟，就可以集中力量做一件事：把数据中心尽快立起来。

Lambda最初主要是数据中心的租户。现在正进入全垂直整合：自己找地、带着数据中心的全套工程图纸（basis of design）上桌谈判、自己融资并施工建设、装服务器、绑定长期off-take协议、全流程自己融资。Stephen转任CTO后的主要方向之一就是高速数据中心部署。他说世界上能做到高速部署的只有两家公司，xAI和Lambda。xAI 2024年将10万块H100从开工到上线压缩到了122天，刷新了行业纪录。Stephen认为Lambda可以追平甚至超越这个速度。

7. 6万美元的恐惧和一个半月的回本

Stephen自己说了一句话解释为什么Lambda走了一条非典型路径：你现在看到了这门生意有多复杂、多重资本、多不符合标准分类框架，就能理解为什么Lambda的投资人大多不是硅谷主流VC。所有投资人都赚到了钱，但他们往往来自更非传统的方向。

Lambda的起源和AlexNet论文发表在同一年。2012年，Stephen从Google Code上拉下了CUDA ConvNet的代码库（Google Code还在运行，可见年代之久远），用一台朋友那里买来的4块Nvidia GTX 580工作站训练卷积神经网络做人脸识别。他建了一个面部识别API，拿到了几千个用户，但没有产生多少收入。

同一时期Stephen还做了另一件事：他作为第一个员工加入了两位博士刚毕业的朋友Zach和Nico创立的Perceptio。这家公司在2013年就用iPhone的GPU图像库和OpenGL ES shaders在手机上本地跑卷积网络。OpenGL ES是手机GPU用来渲染3D图形的编程接口，shaders是里面负责逐像素计算的小程序，Perceptio把原本用来画画面的计算能力挪来跑了神经网络。Stephen后来回到Lambda全职工作，大约一年后Perceptio被Apple收购。iPhone上滑动照片可以识别人脸、搜索照片库的功能，部分技术源头就在那里。

Lambda随后做了一系列产品。其中一个叫Lambda Hat，是一顶帽檐里嵌着摄像头的棒球帽，每10秒拍一张照片，用来收集图像识别的数据集。这个产品没有成功，但Stephen去深圳住了一段时间，学会了设计PCB（印刷电路板，电子产品里承载和连接所有芯片的那块绿色板子）和做消费电子硬件。他后来说，这段经历打开了他的视野，让他意识到商业不只是写app。

真正的转折点出现在2015到2016年。Lambda做了一个叫Dreamscope的产品，用Google Deep Dream和Leon Gatys的风格迁移算法把照片变成画作。这是Midjourney之类产品的极早期形态。Dreamscope获得了百万级用户，处理了大约1500万张图片。问题是AWS账单飙到了每月4万美元。

他们做了一个让自己紧张的决定：花6万美元买了一组工作站搭建小集群来替代AWS。选工作站而不是服务器的理由是"最坏情况还能卖掉"。结果上线一个半月就回本了，之后AWS账单直接降到零。"我们省的钱比赚的钱还多。" 这个6万美元的赌注彻底改变了Lambda的方向。他们开始意识到，也许应该做计算能力供应商。

2017年Lambda开始卖工作站，做了300万美元营收。2018年1000万，2019年3000万。硬件业务峰值做到约2亿美元年化。云业务2019年正式上线，早期增长缓慢，2018到2020年想买大量AI算力的市场确实很小。

COVID期间尤其艰难。软件公司在家照常发版，远程办公甚至带来了更多需求。但Lambda当时还是硬件公司。码头关闭意味着完全无法出货，完全无法确认收入。Stephen记得那段时间站在团队面前说："我们不确定能不能撑过去，但唯一能做的就是咬住牙跑过去，在解决问题的过程中让客户满意。"

Lambda的团队文化从早期就围绕"delight the customer"建立。Stephen在新员工入职的Lambda 101培训中会展示一张图：一只Linux企鹅坐在Lambda工作站前，在读GPT-2的论文，屏幕上显示着训练的loss曲线，loss是模型预测值和正确答案之间的误差，曲线往下走说明模型在变聪明。他告诉新员工：把自己放到这只企鹅的位置上，想想什么能让他开心。 发货团队的人提出在工作站箱子里放Lambda T恤。数据中心运维团队的人提出用白色机架做差异化。这些细节听起来小，但Stephen认为正是这种从下而上的客户导向帮助Lambda撑过了艰难时期。

坚持下来后，Lambda的云业务现在接近10亿美元年化营收，硬件业务已全部退出。做Dreamscope的四个人（Stephen、Michael、首席科学家Shuang Li、工程主管Steve Clarkson）全部还在Lambda。早期员工Mitesh Agrawal在公司待了约八年后离开，和另一位Lambda前成员Thomas Sohmers联合创办了Positron AI，一家做节能推理加速器的公司。2026年2月Positron完成了2.3亿美元B轮融资，估值超过10亿美元。Lambda的"黑帮网络"已经开始成形。

Michel Combes加入担任CEO是Stephen主动推动的。他说自己从来没有那种"必须做founder CEO"的自我执念，他在意的是技术和建一家跨时代的公司，做融资和日常管理对他来说是必须做的事，不是他喜欢做的事。Combes的履历横跨Sprint、SoftBank Group International、Alcatel-Lucent和Vodafone，是大规模资本密集型基础设施运营的老手。Stephen认为这正是Lambda下一阶段需要的。

8. "AI不会写软件，AI会成为软件"

Stephen转任CTO后，一部分精力放在高速数据中心部署上，另一部分放在更远的技术判断上。

他提出了一个叫neural software或neural OS的概念。理解这个概念最直观的方式是去ChatGPT或Claude里输入一个提示：用ASCII art渲染一个桌面界面，然后把模型当作操作系统来使用。点击图标、打开应用、跟它交互。你看到的不是LLM生成了一段代码然后执行，而是LLM本身在模拟软件的行为。

这跟vibe coding有本质区别。Vibe coding输出的仍然是人类可读的代码（Python或C），经过编译器或解释器执行，生成后是静态的。你可以想象一个渐变光谱：最左边是传统人类手写的软件，往右走是vibe coded的软件，再往右是实时生成的just-in-time vibe coded软件（比如一边用一边生成代码）。但光谱的最右端是neural software：没有代码在运行，一切都是模型的特征激活空间和上下文窗口中的状态变化。 好处是不会有bug，只有对提示的误解。

Stephen说Lambda已经有neural software的原型，学术界也有相关研究。距离大规模采用还有多远？他给了一个很坦诚的自我评估："When I'm early on something, I tend to be about a decade to a decade and a half early." 他习惯性地比趋势早十年到十五年。所以他预估neural software在10到15年后开始被大规模采用。

Tesla的端到端自动驾驶其实已经是neural software的一种形态——接收视频输入，用神经网络做决策输出，用户体验就是驾驶体验。这个类比让neural software从概念变成了可触摸的现实：它已经存在了，只是目前的应用场景有限。

Lambda内部已经在实践另一个相关概念，Stephen称之为self-assembling software，自组装软件。把产品需求和用户反馈实时接入一个24/7运行的agent fleet，由agent去实现bug修复和功能开发。软件在发布之后才开始大规模开发，因为用户的反馈会驱动agent持续迭代。

下一步更激进。agent反过来向人类求助。不是人类说"帮我写代码"，而是agent说"帮我去插一千块GPU""帮我注册一个API密钥""帮我去谈个合同"。人变成了agent的执行层。

Agent驱动的开发也在改变算力层本身的需求。Stephen观察到，agent工作时大量时间花在编译、跑自动化测试、搜索代码库这些传统CPU密集型任务上，并非全程消耗GPU推理算力。这意味着云服务商不能只卖GPU，还需要提供配套的CPU编排环境和安全隔离能力。

9. One person, one GPU

Stephen在2020到2021年间做B轮和C轮融资时，用一个历史类比来说服投资人。

Apple 1976年创立时的信条是 "one person, one computer"。Macintosh 1984年问世，但那时一人一电脑的目标还遥不可及。1994年互联网刚起步，仍然不是。2004年家庭宽带开始普及，差不多一户一台电脑了。2014年加上智能手机，才真正超过了一人一电脑。电商渗透直到近年来才显著提速。从信条提出到目标实现，Apple用了接近半个世纪。

Stephen选择one person, one GPU作为Lambda的信条，里面嵌着一层谦卑。他相信未来每个美国人的日常工作、娱乐和创作都需要至少一块GPU的算力。但他也承认，这可能同样需要几十年才能实现。

Matt Turck最后问了两个快速判断题。

什么被高估了？非软件工程领域的agentic workflow。原因在于agent循环要跑得好，必须有具体的、可自动验证的反馈机制。自动化测试对代码来说是天然的闭环。但"去帮我买一块地"这种任务没有可供模型长期迭代的抓地力。当然不是所有非代码领域都不行。CAD、计算机辅助制造、有限元分析、计算流体力学这些可以模拟和迭代的领域同样适用。关键判断标准是：这个任务有没有一个可自动化验证的反馈回路。

什么被低估了？Neural OS和自组装软件的概念，以及面向软件工程的agent驱动开发。Stephen觉得大多数人还没有真正体验过用Claude开10个agent同时构建一个项目是什么感觉。"They literally don't understand because they've never tried it." 他们根本不理解，因为从来没试过。

这期播客的思路：从最底层的物理学出发，逐层向上经过了AI算力这门生意的每一层。从光子和天然气分子到焦耳和瓦特，从PUE到FLOPS，从FLOPS到token，从token到最终用户的智能输出。然后从物理层跳到金融层，解释了这些基础设施如何被融资、如何被定价、为什么会升值。最后跳到更远的未来，描述了一种连代码都不需要的软件形态。

几个信息差：GPU租赁价格不降反升是结构性的；效率提升会扩大市场锥体而非缩小需求；大多数neo cloud的软件能力远不足以运营一个真正的云服务；GPU作为资产类别的金融化才刚起步。对于关注AI基础设施投资的人来说，这些构成了一组可检验的预测。

核心问答

Q1: 为什么GPU算力市场没有像预期那样被商品化？云计算是一种从土地权益到软件虚拟化的高度垂直整合服务，需要持续数亿美元级别的软件投入来实现集群分区、存储优化和网络编排。大多数neo cloud不具备这种能力，这使得真正有能力的玩家享有定价权。同时scaling law没有放缓，需求侧的市场锥体还在持续扩大。

Q2: Neo Cloud的核心竞争壁垒建在哪里？三层壁垒叠加。第一层是云软件编排能力，包括集群分区、三层网络协调切割和RDMA支持，让同一块芯片的利用率和收益最大化。第二层是数据中心的设计和施工能力，决定部署速度和成本。第三层是融资和资本运作能力，让大规模部署变得可持续。大多数neo cloud只有GPU，缺少上面的软件层和下面的基建层。

Q3: 为什么2023年部署的H100现在租金更贵了？需求持续走高是直接原因。更深层的原因是GPU的经济可用寿命远超市场预期，会计折旧周期约6年，但实际可用寿命更长。债权人开始将GPU视为一种可能增值的资产类别，信贷市场资金正在涌入。GPU的金融化才刚起步。

来源：至顶AI实验室

0赞

好文章，需要你的鼓励

GPU算力为什么不是大宗商品？Neo Cloud公司有何竞争壁垒？ 原创

1. "所有说GPU会贬值的人全搞错了"

2. 把算力还原到焦耳和分子

3. 卡在最底层的瓶颈

4. "大多数neo cloud连一个真正的云服务都跑不起来"

5. CUDA只是水，cuDNN才是引擎

6. H100三年后租金更贵了

7. 6万美元的恐惧和一个半月的回本

8. "AI不会写软件，AI会成为软件"

9. One person, one GPU

核心问答

来源：至顶AI实验室

2026

06/20

14:51

分享

点赞

美国多源电子患者数据采集方法研究综述

RF MEMS技术如何最终实现"理想开关"

Kurt Petersen：从墨迹到微机电系统王国的传奇工程师

董事会要求AI回报，但团队尚未做好准备

无需制冷剂的固态冰箱：弹热制冷技术实现-12°C突破

2025年气候科技五大突破盘点

2025年九大令人惊叹的工程技术成就

海洋地球工程崛起：初创公司如何将大海变成碳汇

碳捕捉XPrize大奖花落强化岩石风化技术，Mati Carbon凭数据软件平台胜出

无阴影空间增强现实系统让虚拟投影难辨真假

Modos Flow：两位电子纸工程师的众筹新征程

公众录像正在无意间构建全景监控体系

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

GPU算力为什么不是大宗商品？Neo Cloud公司有何竞争壁垒？原创