GPT、Claude和Gemini到底是怎么训练和推理的:7个方程算清一个token的报价单 原创

5月4日,豆包在App Store页面挂出了付费订阅方案,三档价格从68元到500元/月。官方的解释是:PPT生成、数据分析、影视制作等复杂任务"需消耗更多算力与推理时间"。

5月4日,豆包在App Store页面挂出了付费订阅方案,三档价格从68元到500元/月。官方的解释是:PPT生成、数据分析、影视制作等复杂任务"需消耗更多算力与推理时间"。不管这是不是主要原因,但是,GPU计算的AI经济和CPU计算的互联网经济,一个很主要的区别就是:前者很难用免费模式。因为Token看起来必须以空间计费(用量),而非时间计费(包月)。

所以今天发这期笔记就很应景。Dwarkesh Patel的播客搭了一个新的黑板工作室:嘉宾站在白板前,用粉笔一步步推导一些硬核的知识和思考。第一期请来的是Reiner Pope,谈的就是Token成本和定价问题。

GPT、Claude和Gemini到底是怎么训练和推理的:7个方程算清一个token的报价单

Reiner Pope是AI芯片创业公司MatX的联合创始人兼CEO。在创办MatX之前,他在谷歌工作多年,担任过PaLM推理效率负责人,参与设计了TPU v5e,拥有11项专利。2026年2月,MatX宣布完成5亿美元B轮融资,由量化交易公司Jane Street和前OpenAI研究员Leopold Aschenbrenner创办的Situational Awareness基金联合领投,估值达到数十亿美元。首款芯片MatX One计划与台积电合作生产,预计2027年出货。Dwarkesh本人也是MatX的天使投资人。

这期节目的方法论只有一条:从两个最基础的硬件参数出发,一个是内存读取速度,一个是芯片计算速度,用roofline分析推导出关于AI产业的一系列结论。两个小时的黑板课覆盖了推理、训练、并行策略、上下文长度、API定价,甚至密码学。以下是完整的推导链条。发布于2026年4月30日。

1. 你向Claude发一条消息,GPU在做什么

大模型生成回复的方式是一个token一个token地往外吐。每吐一个token,模型都要完整地"跑一遍",参考前面已经生成的所有词,然后决定下一个词是什么。这个过程叫自回归解码。所以一次回复如果有500个token,GPU就要跑500遍。

每跑一遍要多久?Reiner的分析框架叫roofline分析,核心思想可以浓缩成一条公式:

方程① Roofline原则: T ≥ max(T_计算, T_内存) T = 生成一个token的总耗时。T_计算 = 芯片做完乘法的时间。T_内存 = 从内存读完数据的时间。取两者中较大的那个。

GPT、Claude和Gemini到底是怎么训练和推理的:7个方程算清一个token的报价单

每一步的耗时,取决于两件事中较慢的那个。一件是芯片做乘法花多长时间,另一件是把数据从内存搬到芯片花多长时间。两个瓶颈不是相加,而是取最大值。这意味着只要其中一个足够慢,另一个再快也没用。

计算瓶颈。 大模型本质上是一堆矩阵乘法。但每生成一个token,芯片并不需要用上模型的全部参数。像DeepSeek V3这样的稀疏模型总共有约671亿个参数,但处理每个token时只调用其中约37亿个。256个专家中只激活一小部分,被调用的那部分叫活跃参数,全部参数叫总参数。两者的比值就是稀疏度,DeepSeek V3的稀疏度约为8。

方程② 计算时间: T_计算 = batch × 活跃参数 / FLOPS batch = 同时处理的用户数。活跃参数 = 每个token实际调用的参数量。FLOPS = 芯片每秒浮点运算次数。

batch是同时处理的用户数量,后面会详细讲。FLOPS是芯片每秒能做多少次浮点运算,衡量的是芯片的计算能力。这个公式说的是:要处理的用户越多、活跃参数越多,计算量就越大,除以芯片的算力就是计算时间。

内存瓶颈。 GPU上最快的存储叫HBM,全称高带宽内存,紧贴在芯片旁边,读写速度远高于普通内存。即便如此,把模型的全部参数从HBM读进计算单元,仍然需要时间。这是内存时间的第一部分:读权重。无论你服务1个用户还是1000个用户,这批权重都得完整读一遍。

第二部分是读KV缓存。每生成一个新token,模型需要"关注"此前所有token的内部表示。第一个词说了什么、第二个词说了什么,这些中间结果都存在KV缓存里。新token要和全部历史token做一次注意力计算,这一步主要是在读内存里的KV缓存,计算量反而不大。

方程③ 内存时间: T_内存 = 总参数/带宽 + batch × 上下文长度 × 每token字节数/带宽 总参数 = 模型的全部参数量。带宽 = HBM的读取速度。上下文长度 = 对话历史的token数。每token字节数 = 一个token在KV缓存中占多大。第一项是读权重,第二项是读KV缓存。

第一项是读权重,和用户数无关。第二项是读KV缓存,随用户数和上下文长度线性增长。

把方程②和方程③画成关于batch的曲线,两条线会在某处交叉。交叉点左侧,内存读取更慢,它是瓶颈。右侧,计算更慢,它接管了瓶颈。延迟的硬下界就是"把全部参数从HBM读一遍"的时间。以英伟达Nvidia最新的Rubin一代GPU为例:288 GB的HBM容量除以约20 TB/s的读取带宽,约15毫秒。实际运行中,模型跑一遍生成一个token通常落在20毫秒左右。

GPT、Claude和Gemini到底是怎么训练和推理的:7个方程算清一个token的报价单

这20毫秒意味着GPU按固定间隔"发车"。Reiner用火车做比喻:每20毫秒发一班,不管车上坐满没坐满都按时出发。 刚到的请求搭下一班。最差情况是你的请求恰好在上一班刚走时到达,要等一个完整间隔再加一次执行时间,总共约40毫秒。

2. Batch:为什么1个用户独享GPU比2000人共享贵1000倍

上一章反复提到"同时处理多少个用户"。这个数量在行业里叫batch size,字面意思是批量大小。batch size的通用含义是一次前向传播同时处理的样本数。在推理场景中,一个样本就是一个用户的一条请求,所以batch size等于并发用户数。在训练场景中,batch size指的是一次梯度更新用的训练样本数,后面第八章会用到这个含义。

GPT、Claude和Gemini到底是怎么训练和推理的:7个方程算清一个token的报价单

当你调用Claude或GPT的API时,你的请求不是独占一块GPU的。它会和成百上千个其他用户的请求被打包在一起,共同完成一次推理。batch越大,同一拨处理的用户越多。

GPT、Claude和Gemini到底是怎么训练和推理的:7个方程算清一个token的报价单

Reiner在开场时提到,影响延迟和成本权衡的杠杆主要有两个。一个是batch size,另一个是speculative decoding,即让模型一次猜多个token再验证,用更多计算换更低延迟。这堂课聚焦在batch size这个更基础的杠杆上。

方程④ 单token成本: 成本 = T / batch T = 一步推理的总耗时。batch = 这一步里同时处理的用户数。总耗时被所有用户均摊。

把延迟除以batch size就得到每个token的成本。权重读取是固定开销:无论是1个用户还是2000个用户,GPU都要把全部权重从HBM读一遍。1个用户独自承担这笔开销,和2000个用户均摊,差了2000倍。所以成本曲线随batch增大急剧下降。

但计算时间和KV缓存读取是每个用户独享的。你的KV缓存记录的是你这段对话的历史,别人用不了。所以这两项摊不掉,它们构成了成本的硬性下界。综合来看,batch为1时成本趋向无穷大,batch增大后迅速下降,最终收敛到下界。

这个差距有多大?batch为1时,成本由读权重主导;batch为2400时,权重读取被充分摊薄,成本由计算主导。两者的比值约等于FLOPS/带宽 × 稀疏度,对DeepSeek级别的模型来说就是300 × 8 = 2400。Reiner说"can be like a thousand times worse",取的是数量级估计。 精确计算的结果在数千倍这个范围内。

那batch要多大才够?令内存时间等于计算时间,两个瓶颈刚好平衡:

方程⑤ 临界batch size: ≈ FLOPS/内存带宽 × 总参数/活跃参数 ≈ 300 × 稀疏度 FLOPS/内存带宽 ≈ 300,是多代GPU上稳定的硬件常数。总参数/活跃参数 = 稀疏度,衡量模型有多少参数在"睡觉"。

前半部分是硬件参数。FLOPS除以内存带宽在做FP4运算时约等于300。FP4是当前主流的推理精度格式,每个数字只占半个字节。这个比值在从A100到B100的多代GPU上保持稳定。后半部分是稀疏度。对DeepSeek V3来说稀疏度约为8,所以临界batch size ≈ 300 × 8 = 2400。实际部署一般再乘2到3倍。

一个令人惊讶的结论:临界batch size和模型大小无关,只取决于芯片特性和稀疏度。

2400个并发序列换算成吞吐量:每秒约64步(1/15ms),约15万tokens/s。Gemini去年公开的全球流量在数亿tokens/s量级,所以一个这样的推理单元大约是Gemini全球流量的千分之一。对有规模的API服务来说,凑齐2400个并发序列并不困难。

Claude Code如果推出"慢模式"怎么样?Reiner的结论是:省不了多少钱。一旦batch足够大让计算成为瓶颈,成本就到底了。再等更久、再塞更多用户,都改变不了每个用户独享的计算和KV缓存开销。反过来,"快速模式"用更小的batch换更低延迟,代价是权重读取无法充分摊薄,成本显著上升。这就是为什么Claude Code、Cursor的快速模式要贵好几倍。

3. 稀疏度是一笔划算的交易,但回报在递减

前面推导说明稀疏度越高,临界batch size越大,权重读取被摊薄得越好。那稀疏度能无限提高吗?

GPT、Claude和Gemini到底是怎么训练和推理的:7个方程算清一个token的报价单

Reiner引用了一篇题为Unified Scaling Laws for Routed Language Models的论文。保持活跃参数不变、不断增加专家数量,模型质量确实持续提升,但回报递减严重。论文的数据:一个370M活跃参数、64专家的稀疏模型,质量仅持平于一个1.3B的稠密模型。总参数膨胀了64倍,才换来等效于4倍活跃参数的质量收益。

推理经济学看,这仍然划算。稀疏模型多出来的参数只增加权重读取时间,而权重读取恰好是被batch摊薄的那部分开销。但从内存容量来看,更多参数吃掉的是机架上宝贵的HBM空间。接下来的问题是:这些参数和KV缓存在物理硬件上怎么装?

4. 一个机架装得下什么:MoE的物理边界

MoE全称Mixture of Experts,混合专家模型。前面提到的"256个专家只激活少数几个"就是MoE的工作方式。路由器根据每个token的内容决定它去哪几个专家,其余不参与计算。

GPT、Claude和Gemini到底是怎么训练和推理的:7个方程算清一个token的报价单

以DeepSeek的256个专家为例,Blackwell NVL72机架有72块GPU,取64块方便整除,每块GPU放4个专家。路由器给每个token分配专家时,这些专家可能散布在任何GPU上,所以会出现一种叫all-to-all的通信模式,中文叫"全对全":任意一块GPU都可能需要向任意其他GPU发送数据。

Blackwell机架的内部通信走Scale-up网络,即同一机架内GPU之间的高速互连。72块GPU都连到机架中间的NV Switch交换机上,任意两块GPU只需两跳就能通信。想象一个书架,GPU是两侧的书,中间有线缆通向每一本书。

离开机架后走的是Scale-out网络,即机架之间的数据中心网络,带宽大约只有Scale-up的八分之一。如果把MoE层跨两个机架部署,平均一半的token需要走机架间的慢速链路。结论:一个机架就是一个MoE层能铺开的物理边界。

那为什么英伟达在拼命扩大Scale-up域?Hopper一代只有8块GPU在一个Scale-up域内,总共约640 GB的HBM。Blackwell扩到72块GPU、约13.5 TB HBM。但Reiner强调,容量增长不是重点,带宽增长才是。读权重的时间 = 总参数量 / 整个Scale-up域的总带宽。域内所有GPU并行读取,从8块扩到72块,总带宽乘了9倍,读权重时间缩到原来的九分之一。容量问题可以通过后面讲的pipeline并行解决,但带宽问题只有更大的Scale-up域能解。Reiner原话:"Pipelining totally solves the capacity problem, but scale-up size helps solve the bandwidth problem."

这也解释了一个产业之谜。GPT-4在2023年发布时据传已是万亿参数级别,但此后三年模型参数并没有大幅增长。原因之一是更大的稀疏模型需要更大的Scale-up域来提供足够的带宽,否则读权重太慢,推理延迟不可接受。Rubin一代将推出NVL144甚至NVL576,576块GPU通过铜缆加光互连组成一个域。

扩大Scale-up域的障碍是物理工程。从8块到72块主要是产品形态切换,从小型计算托盘tray换成整柜式机架rack。到576块则需要全新设计。限制因素是线缆弯曲半径、连接器密度、机架承重、散热空间。Reiner和机架设计团队交流后的结论是,现代AI机架在这四个维度上都已推到物理极限。

Reiner还提到,谷歌的TPU较早就拥有大Scale-up域,这可能是Gemini在预训练上比其他实验室更成功的原因之一。

5. 全球缺内存,但你的机架内存过剩

据SemiAnalysis在2026年4月的估算,内存在超大规模数据中心资本开支中的占比已从2023-2024年的约8%跃升至2026年的约30%。2026年四大超大规模运营商(谷歌、亚马逊、微软、Meta)的资本开支合计预计达到6000亿到7250亿美元(据Tom's Hardware和多家分析机构2026年Q1财报整理),其中内存部分可能高达数千亿美元。微软CFO在2026年Q1电话会上直接把250亿美元的资本开支增加归因于内存芯片涨价。HBM至少要到2027年才可能缓解供应紧张。

但与此同时,单个Blackwell NVL72机架有13.5 TB的HBM,而一个万亿参数的模型只需要约1 TB来存权重。内存容量在单机架层面是富余的。

矛盾在于:不是每块GPU上都缺内存,而是全球需要的GPU总量太大了。 每块GPU自带的HBM容量足够甚至过剩,但全世界同时需要几百万块这样的GPU,HBM的总产能跟不上。当前的瓶颈不在单机架的硬件设计上,而在半导体供应链上。

6. 跨越机架的边界:流水线并行和KV缓存的顽疾

如果一个机架已经是MoE层的物理边界,模型层数又有上百层,那一个机架以外的层怎么处理?这就引出了流水线并行:把不同的层分段放在不同机架上,数据像流水线一样依次通过。

GPT、Claude和Gemini到底是怎么训练和推理的:7个方程算清一个token的报价单

机架间通信量远小于机架内的全对全(ALL to ALL)。专家并行时数据量是batch × 激活专家数 × 层数 × 2(一进一出两趟);流水线并行时机架间只需传一份激活值,数据量等于batch大小。两者的比值容易超过8,也就是Scale-up与Scale-out的带宽比,所以跨机架通信本身不是瓶颈。

Reiner指出一个事实:最优的并行方式恰好和模型本身的结构一一对应。 专家放在不同GPU上,层放在不同机架上。过去还有一种叫tensor parallelism的做法,把单个专家的矩阵切开分到多块GPU上,但随着MoE中单个专家越做越小,这种做法已经不划算了。

训练中的pipeline bubble。 理解流水线并行的代价需要进入训练视角。训练分两步:前向传播把数据送进模型算出预测,反向传播根据误差往回调整参数。训练时有一个固定大小的全局batch,要先做完所有样本的前向传播,再统一做反向传播。如果用流水线并行,全局batch必须拆成更小的micro-batch来填满流水线的各个stage。但前向和反向之间仍会出现一段空闲期,叫pipeline bubble。

Ilia Sutskever曾说过"今天我们知道不该做pipeline并行"。原因除了bubble之外,还有模型架构自由度的损失。比如Kimi的模型使用了跨层残差连接,让注意力可以关注好几层之前的信息,这在pipeline切分下难以实现,因为那几层可能分布在不同机架上。

推理中的流水线并行:吞吐免费,但有延迟代价。 推理时不存在"前向完了要统一反向"的约束,一个batch完成后下一个立刻进入,不会空转。从吞吐量看,流水线并行在推理中既不改善也不恶化。但每跨一次机架,数据要经过GPU→网卡→机架顶交换机→对面机架,增加几毫秒。4个pipeline stage可能把每个token的延迟从20毫秒推到约30毫秒,增幅50%。

KV缓存:唯一无法被任何并行策略分摊的开销。 这是全文最关键的推导之一。增加pipeline stage数后,权重的单GPU内存占用按stage数等比下降,但KV缓存的单GPU占用纹丝不动。原因:如果pipeline有4个stage,就需要同时维护4个micro-batch来填满流水线防止空转,每个micro-batch对应一批不同的用户,每批都带着自己的KV缓存。stage翻倍,micro-batch翻倍,KV缓存总量不变。

回忆第二章:KV缓存在batch维度也摊不掉。KV缓存在batch维度摊不掉,在流水线维度也分不掉。 这就是为什么DeepSeek论文中报告的推理方案主要依赖专家并行,扩到整个Scale-up域,几乎不做流水线并行。

7. 像读资产负债表一样读API报价单

前六章建立了一套分析框架。现在Reiner拿出各家公开的API报价单,开始反推。

GPT、Claude和Gemini到底是怎么训练和推理的:7个方程算清一个token的报价单

长上下文涨价50%,泄露了每个token的KV缓存大小。 实际数据:Gemini 2.5 Pro在超过200K token时输入价格从.25/百万token涨到.50,翻了一倍;输出价格从涨到,涨了50%。Gemini 3.1 Pro的输出定价也是类似的50%涨幅。200K附近是计算瓶颈与内存瓶颈的交叉点。短于200K时瓶颈是计算,长于200K时KV缓存的内存读取超过了计算,成了新的瓶颈。

利用这个交叉点可以解方程:

方程⑥ 从定价反推KV缓存: 每token字节数 = 活跃参数 / (FLOPS/带宽 × 上下文长度) 由方程②和方程③在交叉点处联立导出。已知API涨价的阈值上下文长度和硬件参数,解出未知的每token字节数。

代入活跃参数约1000亿、上下文200K、FLOPS与带宽之比约300,解出每个token在KV缓存中占约2 KB。

2 KB可以由两种注意力架构实现。一种是Character AI和Gemma式的层间共享方案:每个注意力头的向量维度d_head为128,配8个KV head,K和V各一份,所有层共享同一份KV缓存,合计8×128×2 = 2048字节 ≈ 2 KB。另一种是稀疏注意力:每层各有独立的KV缓存但只关注部分历史token,总量也落在同一量级。API定价为什么会泄露这些信息?因为定价必须高于成本,否则会被套利。价格贴着成本走,成本的形状就映射到了价格上。

输出比输入贵多少?Reiner在讲座中以5倍为工作假设,实际API定价的倍数因模型而异。 以Gemini 2.5 Pro为例,200K以内的输入价格是.25/百万token,输出价格是/百万token,相差8倍。处理输入时叫prefill,预填充:用户发来的整段文本被一起送进模型,一万个token分摊同一次权重和KV缓存读取,单个token成本极低。生成输出时叫decode,解码:每一步只生成一个token,但全部权重和KV缓存照读不误。decode读了一大堆内存只处理了1个token,prefill同样读这么多内存却处理了成千上万个。如果GPU是计算受限的,输入和输出价格应该一样。几倍的差价直接说明decode端的GPU大部分时间在等数据从HBM搬进来,而非在做乘法。

缓存分档定价指向闪存和机械硬盘。 对话中断后KV缓存怎么处理?三种选项。一是完全丢弃、用时从头重算,成本是重跑一遍前向传播。二和三是存下来,区别在于存哪一层。API上5分钟和1小时两个缓存档位对应不同的物理存储层级。

Reiner用"排空时间"判断每个存储层级适合保存多久。排空时间 = 存储容量 / 带宽,即把整块存储从头读到尾需要的时间。HBM前面已经算过:288 GB / 20 TB/s ≈ 15毫秒。服务器主内存DDR5的典型配置是约1 TB容量、约300 GB/s带宽,排空时间约3秒。企业级闪存SSD的典型配置是数TB容量、约7 GB/s带宽,排空时间落在几分钟到十几分钟。机械硬盘容量大但带宽低,排空时间在小时量级。Reiner坦言这些数字他没有精确记忆,给的是数量级估计。5分钟和1小时这两个API档位,分别和闪存与机械硬盘的排空时间量级吻合。

背后的经济学是持有成本和取回成本的平衡。存储越慢越便宜,持有成本低但取回成本高。两者相等时,就是该层级最适合的保存时长。加上"不存从头算"这个选项,构成了从纯计算到纯存储的完整光谱。

为什么所有模型的上下文长度都卡在200K左右? 前面用方程⑥算出,在当前硬件参数下(FLOPS/带宽比约300、活跃参数约1000亿、每token的KV缓存约2KB),内存读取时间在200K token附近追上了计算时间。超过这个点之后,每多一个token的上下文,KV缓存就更大,内存瓶颈就更严重,GPU更多时间在等数据而非做计算,成本加速上升。200K不是谁选的设计参数,是这三个数字决定的物理交叉点。

要突破就得改三个参数中的至少一个。第一条路是让HBM带宽增长快于算力增长,从而把方程⑥中的FLOPS/带宽这个比值压低。但Reiner指出,这个比值从A100到B100跨越多代GPU一直稳定在300左右,算力和带宽在同步增长,比值没有在移动。只要比值不变,交叉点就钉在原地。第二条路是缩小每token的KV缓存,稀疏注意力在做这件事,比如DeepSeek发表的方案把KV缓存读取量从和上下文长度成正比降到和平方根成正比,但稀疏到一定程度模型不再能有效关注远处的信息,质量会下降。第三条路是减少活跃参数,但那意味着模型变弱。三条路都有硬性天花板。Reiner直接说:"I actually don't see a very good path to solving that."

8. 100倍过度训练:从推理经济学倒推训练规模

前面七章聚焦于推理,也就是模型上线给用户提供服务的过程。但训练和推理的成本加在一起才是完整的图景。Reiner提出的问题是:给定一个固定的总预算,应该怎么分配在预训练、RL和推理之间?RL即强化学习,近年来在大模型训练后期用来提升推理能力。

GPT、Claude和Gemini到底是怎么训练和推理的:7个方程算清一个token的报价单

Reiner用了一个启发式法则:当总成本等于几项之和,最优点往往在各项成本相等处。这在经济学和物理学中反复出现,比如运输成本和库存成本的平衡。

预训练成本遵循经典的6ND公式,6 × N × D,N是活跃参数数,D是训练数据的token总量。6来自训练的两步:前向传播把数据送进模型算出预测,反向传播根据误差调整参数,每个参数在这两步中总共涉及6次浮点运算。RL成本结构类似但效率更低。生成rollout,也就是模型尝试回答问题的完整推理轨迹,只需前向传播,对应2ND。但RL不是每条轨迹都拿来训练,加上decode阶段的硬件利用率MFU偏低。MFU衡量的是芯片实际算力占理论峰值的比例,decode因为内存瓶颈严重,这个比例远低于训练。综合效率因子约0.2。推理成本 = 2 × N × D_inference。

方程⑦ 训练/推理均衡: D_预训练 ≈ D_RL ≈ D_推理 D_预训练 = 预训练消耗的token总量。D_RL = 强化学习生成的token总量。D_推理 = 模型上线后服务用户产生的token总量。三者在数量级上相当。

令三项成本相等后N完全消掉。结论是预训练数据量、RL数据量和推理token总量在数量级上相当。

实际验证:假设一个Gemini级别的单一模型全球流量约5000万tokens/s,模型存活期约2个月后被新版本替代,计算得到约200万亿个token。有传言前沿模型的预训练数据已达150万亿token,同一数量级,与"三等分"吻合。

Chinchilla scaling law是DeepMind在2022年提出的经验法则:仅考虑预训练效率时,最优训练数据量约为活跃参数量的20倍。活跃参数约1000亿的话,Chinchilla最优约2万亿token。实际训练数据量在100到200万亿,超出Chinchilla最优约100倍。推理经济性驱动的逻辑是:缩小模型让每次推理更便宜,同时灌入更多训练数据弥补质量损失。当推理流量足够大时,省下的推理成本远超多花的训练成本。

但模型过时风险会把天平推向更少的训练。 Reiner指出,应该按"模型成功上线"的概率折减推理token数。如果你判断自己的模型只有50%概率成为最佳选择,推理token的期望值就减半,对应的训练数据量也应该减少。实验室对自身竞争力的判断直接影响训练规模的决策。

9. 密码学和神经网络:方向相反,手法相同

两小时的最后二十分钟,Reiner谈起一个自己在博客上写过的话题。

GPT、Claude和Gemini到底是怎么训练和推理的:7个方程算清一个token的报价单

密码学和神经网络共享一个底层机制:把信息在各个维度上充分搅拌。密码学要把有结构的输入搅成不可区分的随机噪声用于加密,神经网络要从看似杂乱的输入中提取高级结构用于理解。方向相反,搅拌的手法相似。

这个相似性是实质性的。密码学中攻击cipher的经典方法叫差分密码分析,本质就是对cipher求导:给输入做一个微小扰动,观察输出变化多大。好的cipher必须具备"雪崩效应",即输入的微小变化导致输出的剧烈变化。同样的雪崩效应在神经网络中却是灾难:对抗攻击在图像中加入人眼不可见的微小扰动就让分类器完全出错,利用的正是这个性质。cipher把它当目标追求,神经网络把它当漏洞修补。

密码学中有一个经典构造叫Feistel网络,能把任何不可逆函数变成可逆的。把输入拆成两半(x, y),让x通过函数f后加到y上,输出为(y, x + f(x))。恢复时x直接读出,y通过z - f(x)算回来。2017-2018年的RevNets论文把完全相同的构造搬进了Transformer。RevNets是可逆网络的缩写,输入分成两路,一路通过Transformer层后加到另一路上,两路交叉前进。效果是残差连接实际上跨了两层,整个网络变成可逆的。残差连接是深度学习中让输入跳过某一层直接加到输出上的快捷通道,有了它网络才能堆到上百层。

可逆网络的实际用途是用计算换内存。正常训练中,前向传播每一层都会产生中间结果叫激活值,要存进HBM留给反向传播用,内存占用随层数线性增长。RevNets因为可逆,反向传播时可以边回退边重算激活值,不需要提前存储,代价是多做一遍计算。

Reiner认为两个领域真正共享的深层概念是后门。密码学中的后门是设计者预埋的秘密入口,神经网络中的后门攻击是在训练中植入隐蔽触发器。两者都是在看似随机的系统中隐藏了结构化信息。密码学花了几十年研究如何检测和防御后门,神经网络的后门防御还处于早期阶段。

Reiner收尾时点出一个贯穿全文的对称性:KV缓存是"花内存省计算",RevNets是"花计算省内存"。 在当前硬件条件下内存昂贵而计算相对充裕,"花内存省计算"通常更划算。

核心问答

Q1: 为什么Claude Code的"快速模式"要贵6倍,但"慢模式"却省不了多少钱?快速模式用更小的batch换更低延迟,代价是权重读取无法被充分摊薄,成本显著上升。反过来,一旦batch已经足够大让计算成为瓶颈,继续增大batch或等待更久都无法降低单token成本,因为计算和KV缓存是每个用户独享的。成本曲线有一个硬性下界。

Q2: 从公开API定价能推断出什么?长上下文涨价的阈值暗示了计算与内存受限的交叉点,可以反推出每个token的KV缓存大小约2KB。输出比输入贵数倍说明decode严重受内存带宽限制。缓存分档定价对应闪存和机械硬盘两个物理存储层级。几个公开数字就能倒推出模型内部的架构参数。

Q3: 前沿模型为什么会比Chinchilla最优过度训练100倍?训练计算不是唯一的成本,推理计算和RL计算同样重要。令三者的成本大致相等,推理token总量就决定了预训练数据量。当全球推理流量足够大时,缩小模型同时灌入更多数据就成了理性选择,结果是远超Chinchilla最优的过度训练。但模型过时的风险会把天平推回来:对自身竞争力信心越低,就越应该少训练。

来源:至顶AI实验室

0赞

好文章,需要你的鼓励

2026

05/04

10:55

分享

点赞

邮件订阅