月之暗面Kimi K2技术报告:解读万亿参数的智能体模型(含K2与DeepSeek R1对比) 原创

月之暗面Kimi K2技术报告:解读万亿参数的智能体模型(含K2与DeepSeek R1对比)

最近,AI编程工具Claude Code的爆火,让Kimi K2模型更火了。

Claude Code默认使用的Claude模型不支持国内使用,Kimi的K2模型成为了主流的替代方案。Kimi K2编程能力和智能体能力都很强,而且它的API支持接入Claude Code。

月之暗面Kimi K2技术报告:解读万亿参数的智能体模型(含K2与DeepSeek R1对比)

但这时候国外一个研究模型架构的哥们儿Sebastian Raschka说,Kimi K2模型跟DeepSeek R1架构也差不多啊,不就是减少了注意力头以及增加了专家嘛。Kimi K2技术报告解答了这个疑问:

2025年7月22日,Kimi K2技术报告已在GitHub公开发布,基础模型和后训练模型检查点已通过HuggingFace平台开源。Kimi K2是一个有1.04万亿总参数、320亿激活参数的混合专家模型,在技术架构上实现创新突破,更重要的是在智能体能力方面展现出优势。

月之暗面Kimi K2技术报告:解读万亿参数的智能体模型(含K2与DeepSeek R1对比)

K2模型在多个主流基准测试中领先。在软件工程领域,K2模型在SWE-bench Verified上达到65.8%的准确率,在多语言软件工程任务SWE-bench Multilingual上获得47.3%的分数。在工具使用任务上,K2模型在Tau2-Bench上实现66.1的分数,在ACEBench英文测试中获得76.5分。这些数据表明,Kimi K2不仅在传统的语言理解任务上表现出色,更在需要复杂推理和多步操作的智能体任务中展现了强大的能力。

我们也根据论文顺手整理了一下K2整个训练过程:

月之暗面Kimi K2技术报告:解读万亿参数的智能体模型(含K2与DeepSeek R1对比)

MuonClip优化器:解决大规模训练的核心挑战

月之暗面Kimi K2技术报告:解读万亿参数的智能体模型(含K2与DeepSeek R1对比)

考虑这样一个技术场景:当我们试图将模型规模扩展到万亿参数级别时,传统的优化器往往会遇到训练不稳定的问题,特别是注意力机制中的logit爆炸现象。这种现象就像是一个精密仪器在高压环境下的失控,会导致整个训练过程的崩溃。

Kimi K2的研究团队提出了MuonClip优化器来解决这个关键问题。这个优化器的设计思路类似于为高性能引擎安装一个智能限速系统。MuonClip在保留Muon优化器高效token利用率优势的同时,引入了QK-Clip机制来控制注意力logit的增长。

从技术实现角度看,QK-Clip的工作原理可以这样理解:当模型在处理序列数据时,注意力机制会计算查询(Q)和键(K)之间的相似度分数。如果这些分数过大,就会导致softmax函数输出过于极端,进而影响训练稳定性。QK-Clip通过动态调整权重矩阵的缩放因子来控制这一过程,就像给一个可能过热的引擎安装温控系统。

具体来说,对于每个注意力头h,模型会计算最大logit值:S_max^h = (1/√d) max Q_i^h K_j^h。当这个值超过预设阈值τ时,QK-Clip会按比例缩放查询和键的投影权重。重要的是,这种调整不会影响当前步骤的前向和反向计算,而是作为一个指导信号来控制权重的增长趋势。

为了最小化对模型训练的干预,研究团队采用了按头调整的策略。实验显示,通常只有少数注意力头会出现logit爆炸,因此QK-Clip会为每个头计算独立的缩放因子γ_h = min(1, τ/S_max^h)。对于多头潜在注意力(MLA)架构,系统只对非共享的注意力头组件进行调整,包括头特定的查询和键组件,以及头特定的旋转位置编码。

月之暗面Kimi K2技术报告:解读万亿参数的智能体模型(含K2与DeepSeek R1对比)

在Kimi K2的训练过程中,MuonClip展现出了优异的稳定性。在15.5万亿token的预训练过程中,模型没有出现任何loss尖峰,证明了这种优化策略的有效性。更重要的是,QK-Clip具有自我停用的特性:在训练初期的7万步中,约12.7%的注意力头触发了QK-Clip,但随着训练的进行,所有头的最大logit值都降至阈值以下,QK-Clip自动停用,对后续训练不产生任何影响。

高质量预训练数据的创新处理

在预训练数据处理方面,Kimi K2采用了一种创新的改写策略来提升token效率。这种方法的核心思想是,与其简单地重复使用相同的高质量数据,不如通过智能改写来增加数据的多样性,从而在保持数据质量的同时避免过拟合。

知识数据改写管线包含三个关键组件。首先是风格和视角多样化提示,研究团队设计了一系列精心构造的提示词,引导大型语言模型以不同的风格和视角对原始文本进行改写,在保持事实准确性的同时增强语言多样性。其次是分块自回归生成策略,为了保持长文档的全局连贯性并避免信息丢失,系统采用基于分块的自回归改写方法,将文本分割成片段,逐个改写,然后重新组合成完整段落。最后是保真度验证机制,通过比较改写文本与原始内容的语义一致性来确保质量控制。

实验结果验证了这种改写策略的有效性。在SimpleQA任务上,研究团队比较了三种训练策略:原始数据集重复10轮、改写一次后重复10轮、改写10次进行单轮训练。结果显示,改写策略持续提升了模型性能,从23.76%提升到28.94%,证明了基于改写的数据增强方法的优势。

数学数据改写则采用了不同的策略。为了增强数学推理能力,研究团队将高质量的数学文档改写为"学习笔记"风格,这种方法受到SwallowMath研究的启发。同时,团队还通过将其他语言的高质量数学材料翻译成英文来增加数据多样性。

整个预训练语料库包含15.5万亿个高质量token,涵盖四个主要领域:网页文本、代码、数学和知识。每个领域都经过了严格的正确性和质量验证,并设计了针对性的数据实验来确保数据集既具有高度多样性又保持有效性。这种精心设计的数据处理流程为Kimi K2的优异性能奠定了坚实基础。

万亿参数MoE架构的精妙设计

Kimi K2采用了一个经过精心优化的万亿参数混合专家架构,总参数量达到1.04万亿,但激活参数仅为320亿。这种设计哲学体现了现代大模型追求效率和性能平衡的核心理念。

模型架构遵循了与DeepSeek-V3类似的设计思路,但在关键参数上进行了重要调整。研究团队通过扩展缩放定律分析发现,继续增加稀疏性能够带来显著的性能提升,因此将专家数量从DeepSeek-V3的256个增加到384个。每个前向传递激活8个专家,保持了计算效率。为了在推理阶段减少计算开销,特别是在处理长序列时,团队将注意力头数量从128减少到64。

月之暗面Kimi K2技术报告:解读万亿参数的智能体模型(含K2与DeepSeek R1对比)

稀疏性缩放定律的研究为这些设计决策提供了理论支撑。稀疏性定义为专家总数与激活专家数的比值。通过精心控制的小规模实验,研究团队观察到在固定激活参数数量的情况下,增加专家总数能够持续降低训练和验证损失,从而提升整体模型性能。具体而言,在计算最优稀疏性缩放定律下,达到相同的1.5验证损失,稀疏性48相比稀疏性8、16、32分别减少了1.69倍、1.39倍和1.15倍的FLOPs。

注意力头数量的选择体现了对长上下文处理的深度考量。虽然DeepSeek-V3设置注意力头数量约为模型层数的两倍来更好地利用内存带宽,但随着上下文长度的增加,双倍的注意力头会导致显著的推理开销。在128K序列长度下,将注意力头从64增加到128会导致83%的推理FLOPs增长。通过对比实验,研究团队发现在等token训练条件下,双倍注意力头只能带来0.5%到1.2%的验证损失改善,这种边际收益无法证明推理成本的合理性。

模型的隐藏维度设置为7168,MoE专家隐藏维度为2048,采用61层结构。这种配置在保证模型表达能力的同时,优化了计算效率和内存使用。多头潜在注意力(MLA)机制的采用进一步提升了模型的效率,这种注意力机制能够在保持性能的同时减少计算复杂度。

整个架构设计体现了现代大模型工程中的核心原则:通过精确的参数配置和架构优化,在性能、效率和可扩展性之间找到最佳平衡点。这种设计不仅使Kimi K2能够处理复杂的智能体任务,还为未来更大规模模型的发展提供了重要参考。

大规模智能体数据合成与工具使用学习

现代大模型智能体的一个关键能力是能够自主使用不熟悉的工具,与外部环境交互,并通过推理、执行和错误纠正来迭代优化行动策略。这种能力对于解决复杂的多步骤任务至关重要,需要与真实世界系统进行动态交互。

月之暗面Kimi K2技术报告:解读万亿参数的智能体模型(含K2与DeepSeek R1对比)

Kimi K2的研究团队开发了一个三阶段的数据合成管线来解决这一挑战。第一阶段是工具规格生成,团队构建了一个大型工具规格仓库,既包含从GitHub获取的3000多个真实MCP工具,也包含通过层次化领域生成过程合成的20000多个工具。这种演化过程从关键类别开始,然后在每个类别内演化出多个特定应用领域,最终为每个领域合成专门的工具。

第二阶段是智能体和任务生成。通过为从工具仓库中采样的每个工具集生成使用该工具集的智能体和相应任务,系统创建了数千个具有不同能力、专业领域和行为模式的智能体,确保了潜在用例的广泛覆盖。每个任务都配有明确的成功标准、预期工具使用模式和评估检查点的详细规则。

第三阶段是轨迹生成,这是整个管线最复杂的部分。系统通过多个组件模拟真实的工具使用场景:用户模拟组件生成具有不同沟通风格和偏好的用户画像,与智能体进行多轮对话;工具执行环境作为一个复杂的工具模拟器,执行工具调用并提供真实反馈,在每次工具执行后维护和更新状态,支持具有持续效果的复杂多步交互。

为了确保数据质量,系统引入了受控随机性来产生包括成功、部分失败和边缘情况在内的各种结果。一个基于LLM的评判器根据任务规则评估每个轨迹,只有满足成功标准的轨迹才会被保留用于训练,这确保了高质量数据的同时允许任务完成策略的自然变化。

混合方法的优势在于平衡了可扩展性和真实性。虽然仿真提供了可扩展性,但研究团队也承认仿真保真度的固有限制。为了解决这一问题,团队在关键场景中补充使用真实执行沙箱,特别是在编程和软件工程任务中。这些真实沙箱执行实际代码,与真实开发环境交互,通过测试套件通过率等客观指标提供真实反馈。

这种结合可扩展仿真和针对性真实执行的混合管线,生成了多样化、高质量的工具使用演示,平衡了覆盖率和真实性。大规模自动化合成数据生成与质量过滤过程的结合,有效实现了大规模拒绝采样。这种高质量的合成数据在用于监督微调时,显著提升了模型在广泛真实应用中的工具使用能力。

统一强化学习框架与自我批评机制

在后训练阶段,Kimi K2采用了一个创新的统一强化学习框架,该框架将可验证奖励(RLVR)与自我批评机制相结合,实现了从静态对齐向开放域动态对齐的跨越。

可验证奖励部分涵盖了多个关键领域。在数学、STEM和逻辑任务中,研究团队遵循两个关键原则:多样化覆盖和适中难度。多样化覆盖通过专家标注、内部问答提取管线和开放数据集的组合来收集高质量问答对,在收集过程中使用标记系统来故意增加覆盖不足领域的内容。适中难度的控制通过SFT模型的pass@k准确率来评估每个问题的难度,只选择适中难度的问题,因为过于简单或困难的问题都可能产生较少的学习信号。

复杂指令跟随任务通过混合验证框架来处理,该框架结合自动验证和对抗性检测。系统实现两种验证机制:针对可验证输出的确定性评估和针对需要细致理解约束的指令的LLM评判评估。为了解决模型可能声称完成指令但实际并未遵守的对抗性行为,系统还加入了额外的检查层来特别检测这类欺骗性声明。

编程和软件工程任务利用强大的沙箱基础设施,支持超过10000个并发沙箱实例并保持稳定性能。系统从开源数据集和合成源收集问题及其评判器,为了确保合成数据的多样性和奖励信号的正确性,还整合了从预训练数据中检索的高质量人工编写单元测试。

自我批评奖励机制扩展了模型对齐的范围,超越了具有可验证奖励的任务。这种方法旨在将LLM与细致的人类偏好对齐,包括帮助性、创造性、推理深度、事实性和安全性。框架通过自我批评奖励机制运作,模型评估自己的输出来生成偏好信号。

在学习循环的核心过程中,K2演员为涵盖广泛用例的通用提示生成响应,然后K2批评者通过针对规则组合进行配对评估来对所有结果进行排名。这些规则包括代表Kimi珍视的AI助手基本价值的核心规则、旨在消除奖励黑客的规定性规则,以及由数据团队为特定指导背景制作的人工标注规则。

闭环批评优化和对齐在RL训练期间使用可验证信号来优化批评模型。来自可验证奖励提示的在线策略展开用于持续更新批评者,这是将RLVR的客观性能信号直接提炼到其评估模型中的关键步骤。这种转移学习过程将可验证任务的性能提升整合到批评者对缺乏明确奖励信号的复杂任务的判断中。

通过在可验证数据中建立主观评估的基础,该框架实现了对复杂、不可验证人类目标的稳健且可扩展的对齐。这种整体对齐在各个领域产生了全面的性能改进,包括用户意图理解、创意写作、复杂推理和细致的语言理解。

训练基础设施的工程创新

Kimi K2的训练基础设施体现了现代大模型工程的高水准,通过创新的并行策略和系统优化实现了万亿参数模型的高效训练。

并行策略采用了灵活的设计原则,支持在32的倍数个节点上进行训练。这种策略结合了16路流水线并行、16路专家并行和ZeRO-1数据并行。在这种配置下,以BF16格式存储模型参数及其FP32梯度累积缓冲区需要约6TB的GPU内存,分布在256个GPU的模型并行组中。

优化器状态的放置根据训练配置动态调整。当训练节点总数较大时,优化器状态被分布式存储,将每设备内存占用降至可忽略水平。当节点总数较小时,可以将部分优化器状态卸载到CPU。这种方法确保每个GPU保持约30GB的GPU内存用于所有状态,剩余内存用于激活。

专家并行通信与交错1F1B的重叠通过增加预热微批次数量来实现,在标准交错1F1B调度下将EP全对全通信与计算重叠。为了确保1F1B阶段的完全计算-通信重叠,K2中减少的注意力计算时间需要最小化EP操作时间,这通过采用最小可行的EP并行化策略EP=16来实现。

激活内存优化通过多种技术实现。选择性重计算应用于成本低廉、内存占用高的阶段,包括LayerNorm、SwiGLU和MLA上投影。FP8存储用于不敏感的激活,将MoE上投影和SwiGLU的输入压缩为FP8-E4M3格式,小规模实验显示没有可测量的损失增加。激活CPU卸载将所有剩余激活卸载到CPU RAM,通过专门的复制引擎实现流式卸载和加载,与计算和通信内核重叠。

月之暗面Kimi K2技术报告:解读万亿参数的智能体模型(含K2与DeepSeek R1对比)

强化学习基础设施采用了混合共置架构,训练和推理引擎位于相同的工作节点上。当一个引擎工作时,另一个引擎释放或卸载其GPU资源。分布式检查点引擎的设计解决了参数更新的挑战,每个检查点引擎工作节点从训练引擎获取参数的本地副本,然后在所有检查点引擎工作节点间广播完整参数集。

为了支持长期、多轮智能体任务的训练,系统实现了几项优化。由于环境多样性,某些交互可能因等待环境反馈而被阻塞,系统采用两种策略最大化GPU利用率:将重型环境部署为专用服务以便更容易扩展,以及使用大量并发展开来分摊某些昂贵交互引起的延迟。

这种精心设计的基础设施不仅支持了Kimi K2的成功训练,更为未来更大规模模型的开发提供了宝贵的工程经验和技术储备。

至顶AI实验室洞见

Kimi K2模型在国内外都引发热议,有人称这是国产模型的第二次DeepSeek时刻。

正好我们来放一张Kimi K2和DeepSeek R1技术上异同的对比表格。

月之暗面Kimi K2技术报告:解读万亿参数的智能体模型(含K2与DeepSeek R1对比)

月之暗面Kimi K2技术报告:解读万亿参数的智能体模型(含K2与DeepSeek R1对比)

月之暗面Kimi K2技术报告:解读万亿参数的智能体模型(含K2与DeepSeek R1对比)

MuonClip优化器的提出解决了大规模模型训练中的根本性稳定性问题。这种创新不仅使万亿参数模型的训练成为可能,更重要的是为更大规模模型的开发扫清了技术障碍。QK-Clip机制的自我调节特性展现了一种优雅的工程设计理念:系统在需要时介入,在稳定后自动退出。

智能体数据合成技术的突破为解决高质量训练数据稀缺问题提供了新思路。传统上,智能体能力的训练依赖于稀缺且昂贵的真实交互数据,而Kimi K2证明了通过精心设计的合成管线可以生成足够高质量的训练数据。

统一强化学习框架展现了一种新的对齐范式。通过将可验证奖励与自我批评机制相结合,实现了从任务特定优化向通用能力提升的转变,提高了训练效率。

对于智能体来说,模型是大脑,工具是手脚。

Kimi的智能体已经有了聪明的大脑K2,可以很好地指挥Claude Code这样的工具。Kimi的深度研究功能也已经可以高质量地搜索、研究并通过精美的前端页面展示研究成果。未来,我们也期待Kimi推出更多自研的各类工具,为用户提供高质量的多轮对话体验。

项目地址:
https://github.com/MoonshotAI/Kimi-K2

Q&A

Q1:Kimi K2的核心技术创新是什么?

A:Kimi K2的核心创新包括MuonClip优化器、大规模智能体数据合成和统一强化学习框架。MuonClip通过QK-Clip机制解决了万亿参数模型训练中的稳定性问题,实现了15.5万亿token的零loss尖峰训练。智能体数据合成管线通过三阶段流程生成高质量工具使用数据,统一RL框架将可验证奖励与自我批评机制结合,显著提升了模型的智能体能力。

Q2:相比其他开源模型,Kimi K2在哪些方面表现突出?

A:Kimi K2在智能体和软件工程任务上表现尤为突出。在SWE-bench Verified上达到65.8%,Tau2-Bench上获得66.1分,ACEBench上取得76.5分,均大幅领先其他开源模型。同时在数学推理(AIME 2024: 69.6%)、代码生成(LiveCodeBench: 53.7%)和工具使用等方面也达到了新的技术高度,在LMSYS Arena排行榜上位居开源模型第一。

Q3:Kimi K2的MoE架构设计有什么特别之处?

A:Kimi K2采用1.04万亿总参数、320亿激活参数的ultra-sparse MoE架构,专家数量增至384个(相比DeepSeek-V3的256个),激活8个专家。通过稀疏性缩放定律分析优化了专家配置,注意力头数量减至64个以降低长上下文推理开销。这种设计在保持高性能的同时显著提升了计算效率,特别适合智能体应用场景。

来源:至顶AI实验室

0赞

好文章,需要你的鼓励

2025

07/23

17:48

分享

点赞