今年初,阿里千问团队创新地训练出拥有两种思考模式“思考”和“非思考”的Qwen3模型(Qwen3模型:思考模式与非思考模式的完美融合)。
没想到,快手刚发布的新模型在后训练过程中有5种思考模式:“思考”“非思考”“自动思考”“带图思考”以及“高质量视频数据”。
感觉像是武侠著作里的主角,拥有极高的悟性,学习5种不同功法不在话下。(小测验:“你知道武侠著作中掌握功法最多的人是谁吗?”答案在文末Q&A中揭晓。)
2025年7月2日,快手Keye团队发布Kwai Keye-VL模型,模型参数为80亿,基于Qwen3-8b模型训练,并且集成了开源SigLIP初始化的视觉编码器。相关技术报告发布于ArXiv平台。Keye-VL-8B-Preview在Huggingface平台上开源。
Kwai Keye-VL:支持原生动态分辨率,通过将每幅图像划分为14x14的块序列,保留图像的原始宽高比;一个简单的多层感知器 (MLP) 层负责映射和合并视觉标记;使用3D RoPE统一处理文本、图像和视频信息,在位置编码和绝对时间之间建立一一对应关系,以确保精确感知视频信息的时间变化。
为什么短视频理解这么难?
AI虽然已经很强了,但是在理解短视频上还存在困难。
传统的AI模型在处理静态图片时表现出色,但当面对短视频时,它们就像是只看到了电影中的某一帧画面,却无法理解整个剧情的发展脉络。短视频包含了丰富的时间信息、运动轨迹、场景变化,还有音频内容,这些元素交织在一起形成了复杂的信息网络。
快手这个短视频平台,每天处理着海量的短视频内容,深刻理解这个挑战的复杂性。用户上传的短视频涉及生活记录、才艺展示、知识分享等各种场景,每一个视频都是一个独特的故事。要让AI真正理解这些内容,不仅需要识别画面中的人物、物体和动作,还要理解视频的主题、情感倾向,甚至是用户的创作意图。
更具挑战性的是,短视频往往信息密度极高,在短短几十秒内包含了大量的视觉和听觉信息。这就像是要求一个人在几秒钟内理解一首诗的全部含义,包括字面意思、深层寓意和情感表达。传统的AI模型在这种高密度信息处理上往往力不从心,要么遗漏重要细节,要么无法把握整体脉络。
快手的"小而精"哲学
面对这个挑战,快手团队没有选择简单地增加模型参数,而是采用了"小而精"的设计哲学。他们开发的Kwai Keye-VL模型只有80亿参数,相比动辄千亿参数的大型模型,显得相当"苗条"。
这种设计哲学的核心在于专精化。研究团队认识到,与其追求大而全的通用能力,不如在特定领域做到极致。Kwai Keye-VL专门针对短视频场景进行了深度优化,在这个垂直领域达到了前所未有的理解深度。
模型的架构设计体现了这种专精思路。研究团队采用了经典的多模态大语言模型架构,包含视觉编码器、MLP投影器和语言解码器三个核心组件。视觉编码器选择了开源的SigLIP-400M模型,专门负责提取视觉信息;语言解码器使用了广受认可的Qwen3-8B模型,提供强大的语言理解能力;而连接两者的MLP投影器则是完全重新设计和训练的,确保视觉和语言信息的完美融合。
更重要的是,团队引入了原生分辨率处理技术。传统模型往往需要将不同尺寸的图片强制调整到固定分辨率,这个过程就像把不同比例的照片都裁剪成正方形一样,必然会损失信息。而Kwai Keye-VL能够处理原始分辨率的图像和视频,保持了内容的完整性和细节的清晰度。这种技术让模型能够更好地理解视频中的精细信息,比如文字内容、表情变化或者动作细节。
数据就是王道:6000亿token的精心调配
如果说模型架构是一辆车的发动机,那么训练数据就是驱动这台发动机的燃料。快手团队构建了一个超过6000亿token的庞大数据集,这个规模相当于几千万部小说的文字量。
整个数据集涵盖了六大类别:图像标注数据、OCR和视觉问答数据、定位和计数数据、交错文本图像数据、视频理解数据以及纯文本数据。
图像标注数据为模型提供了基础的视觉-语言映射能力,就像教孩子认识"这是苹果,那是香蕉"。但仅仅有这样的基础还不够,OCR和视觉问答数据训练模型识别和理解图片中的文字信息,这在短视频应用中极其重要,因为很多短视频都包含字幕、标题或者其他文字元素。
定位和计数数据让模型学会精确定位对象并进行计数,这听起来简单,但对AI来说却是一个复杂的任务。研究团队使用了中心点、边界框和多边形三种不同的定位方式,训练模型从不同角度理解空间关系。坐标信息被标准化到0-1000的整数范围内,确保不同分辨率图像的一致性处理。
交错文本图像数据则训练模型处理图文混排的复杂内容,就像阅读一本图文并茂的杂志。这类数据不仅包含多图像关联,还能帮助模型保持通用知识,确保在专门训练视频理解能力的同时不会"忘记"基础语言能力。
视频数据是这个数据集的核心亮点。作为短视频平台,快手拥有丰富的视频资源和深刻的场景理解。他们不仅收集了开源视频数据,还构建了大规模的内部视频数据集。这些视频经过了严格的处理流程,包括音频转文字、多FPS重新标注、帧级OCR标注等。更创新的是,他们设计了一系列推理增强任务,比如帧级重排序和多视频匹配,这些任务训练模型理解视频中的时间关系和语义连接。
整个数据构建过程体现了工业级的严谨性。团队使用CLIP模型进行初步过滤,对于高质量数据则采用开源多模态大语言模型作为判别器。更重要的是,他们进行了严格的去重和防污染处理,使用pHash和minHash技术检测训练数据与评测基准的重叠,确保评估结果的公正性。
四阶段渐进训练:从零到专家的成长之路
快手团队设计了一个四阶段的预训练策略,每个阶段都有明确的学习目标。
第一阶段是图像-文本匹配阶段,相当于让AI学习最基础的"看图说话"。在这个阶段,视觉编码器继续使用SigLIP对比学习损失函数进行训练,适应内部数据分布。同时,团队引入了原生动态分辨率处理技术,类似于NaViT的方法,让模型能够处理不同比例的图像而不损失原始结构信息。他们还集成了2D旋转位置编码技术,增强了模型处理不同分辨率图像时的外推能力。
第二阶段是跨模态对齐阶段,这时语言模型加入训练过程。研究团队选择了Qwen3-8B作为语言解码器,这个模型在语言理解方面表现优异。在这个阶段,视觉和语言模型的参数都被冻结,训练重点放在优化投影MLP层上。这个过程就像教两个说不同语言的人学会沟通,投影层充当了翻译的角色,将视觉信息转换为语言模型能够理解的形式。
第三阶段是多任务预训练阶段,所有模型参数都被解冻进行端到端优化。这个阶段使用了包含图像标注、OCR、定位、视觉问答和交错图文数据在内的多样化训练数据。这个过程就像让学生同时学习多门课程,培养综合能力。模型在这个阶段显著提升了基础视觉理解能力。
第四阶段是退火阶段,使用精选的高质量数据进行微调。这个阶段的主要目的是解决大规模训练中高质量样本曝光不足的问题。通过优化的学习策略和数据混合,进一步完善模型的细致理解能力。
特别值得一提的是,团队在最后阶段采用了模型融合技术。他们发现,预训练模型在下游任务上的表现对训练数据混合比例高度敏感,这种敏感性在较小模型中更为明显。为了解决这个问题,他们探索了同质异构融合技术,通过平均不同数据混合比例下退火得到的模型权重,在保持个体模型多样化能力的同时减少整体偏差,增强模型鲁棒性。
后训练的精妙设计:让AI学会"思考"
如果说预训练阶段是让AI掌握基础能力,那么后训练阶段就是教会它如何灵活运用这些能力,甚至学会"思考"。快手团队设计了一个两阶段的后训练过程,这个过程的创新性堪称整个研究的核心亮点。
第一阶段被称为"无推理训练",主要建立基础性能。这个阶段分为两个步骤:首先是监督微调,然后是混合偏好优化。监督微调阶段使用了超过500万个多模态问答样本,研究团队采用了专有的TaskGalaxy框架,将数据按照7万种不同的多模态任务类型进行分类,确保任务多样性。为了保证数据挑战性,他们让多个大语言模型为每个数据点生成多条推理路径,根据回答的正确性和长度评估样本复杂度,过滤掉过于简单的数据。
混合偏好优化阶段更加精细,数据集包含40万开源样本、5万重构偏好样本、1万自我改进样本、9万纯文本样本和3万人工标注样本。这种多样化的数据组合就像为AI准备了一份营养均衡的大餐,每种数据都有其独特的营养价值。
第二阶段是"推理训练",这是整个研究最具创新性的部分。这个阶段的核心理念是教会AI在不同情况下选择不同的思考模式,就像人类面对简单问题时会直接回答,面对复杂问题时会深入思考一样。
研究团队创造性地设计了五种思考模式的"冷启动"数据混合:传统问答模式适用于简单直接的问题;长思维链模式用于需要多步骤推理的复杂问题;自动推理决策模式让AI自主判断是否需要深度思考;"图像思考"模式让AI能够生成代码来处理图像;高质量视频数据则专门提升视频理解能力。
这种混合训练的巧妙之处在于,它教会了模型根据问题的复杂程度自动选择合适的回应策略。就像一个经验丰富的老师,面对学生的简单问题会直接给出答案,面对复杂问题会引导学生一步步思考。模型学会了在简单感知任务中快速响应,在复杂推理任务中深度思考。
随后的强化学习阶段进一步强化了这些推理能力。团队采用了GRPO算法,奖励信号来自大型多模态模型,既评估最终结果的正确性,也评估推理过程与结果的一致性。他们特别关注短视频理解的强化学习,通过真实标签和标注数据应用强化学习提升模型的视频推理能力,使输出更符合预期的价值导向。
最后的迭代对齐阶段解决了重复输出和逻辑推理缺陷等问题。这个阶段使用多轮迭代的拒绝采样数据,涵盖指令遵循、OCR、数学、图表、计数、纯文本、安全和认知等多个领域。数据构建过程采用混合评分系统,结合基于规则的客观评分和基于模型的主观评分,创建配对的偏好数据。
技术创新的深度解析
Kwai Keye-VL的技术创新体现在多个层面,每一个创新都解决了短视频理解中的特定挑战。
在视觉编码方面,原生分辨率处理是一个重要突破。传统的多模态模型通常将图像调整到固定分辨率,这个过程必然会损失信息或引入不自然的变形。Kwai Keye-VL采用了原生分辨率处理技术,保持图像的原始宽高比,将每张图像分割为14x14的patch序列。这种方法就像是用完整的拼图块而不是破碎的碎片来拼出完整图案,能够保留更多的细节信息。
为了处理不同分辨率的图像,团队引入了2D旋转位置编码技术(2D RoPE)。这种技术能够增强模型在处理变化分辨率图像时的外推能力,就像是为AI提供了一个更灵活的"视野",能够适应不同大小和比例的视觉内容。
在视频处理方面,模型支持动态分辨率策略,在最大帧数和总token数之间进行平衡。当前设置下,每帧的最小和最大token数分别为128和768,最大视觉token数为24576。这种设计能够自动在视觉感知的广度(更多帧)和深度(每帧更多细节)之间进行权衡。
3D RoPE技术的应用是另一个创新点。在提取帧序列后,模型重新计算FPS并确保在3D RoPE维度中时间位置的严格对齐,位置编码中每增加1对应现实世界中0.5秒的时间。这种精确的时间对齐确保了模型能够准确感知视频中的时间变化。
在多模态融合方面,简单的MLP层用于映射和合并视觉token。虽然结构简单,但这个组件经过了精心的设计和充分的训练,能够有效地将视觉信息转换为语言模型能够理解的表示。
评估体系的全面性
为了全面评估Kwai Keye-VL的能力,研究团队构建了一个多层次的评估体系,既包括公开基准测试,也包括专门设计的内部评估。
在公开基准测试方面,团队选择了29个涵盖不同能力维度的基准。通用视觉语言任务包括MMMU、AI2D、V*、BLINK等,这些基准测试模型的基础理解能力。文档和OCR任务选择了ChartQA、CharXivDQ和OCRBench,测试模型处理复杂视觉文本的能力。数学任务包括MathVision、MathVista等多个基准,评估模型的数学推理能力。视频任务使用了Video-MME、Video-MMMU、TempCompass等基准,专门测试视频理解能力。
在这些公开基准上,Kwai Keye-VL展现出了出色的性能。在思考模式下,模型在MMMU上达到71.4%的准确率,在AI2D上达到86.7%,显著超越了同规模的其他模型。在数学推理任务上,模型表现尤为突出,在多个基准上排名第二,仅次于专门优化的MiMo-VL模型。
在视频理解方面,Kwai Keye-VL的优势更加明显。在Video-MMMU上,模型比其他开源模型高出8.7个百分点。在自动思考模式下,某些基准的性能甚至超过了思考模式,表明模型成功学会了根据任务复杂度自动调节推理深度。
更重要的是,团队还开发了KC-MMBench,一个专门针对短视频场景的基准测试。这个基准包含6个任务类别和1840个实例,涵盖了电商场景下的产品属性预测、短视频内容聚类、评论内容分析等实际应用场景。在这个基准上,Kwai Keye-VL达到了68.03%的平均准确率,大幅超越第二名模型的57.62%。
为了更细致地评估模型能力,研究团队还构建了详细的内部评估体系。这个体系从正确性、相关性、全面性、流畅性和创造性五个维度对模型输出进行人工评估。评估覆盖了视频和图像两个子集,每个子集150个问答对。
评估结果显示,Kwai Keye-VL在视频子集上获得了3.33的最高综合评分,特别是在全面性(4.36)和创造性(3.75)方面表现突出。在图像子集上,模型同样获得了3.81的最高综合评分,在正确性(4.05)和全面性(4.49)方面领先。
实际应用价值和局限性
Kwai Keye-VL的研究成果不仅在学术上具有重要意义,在实际应用中也展现出巨大潜力。在短视频平台的内容理解、推荐系统、内容审核等方面,这个模型都能发挥重要作用。
在内容理解方面,模型能够准确识别视频的主题、情感倾向和关键信息,为内容分类和标签生成提供支持。在推荐系统中,深度的视频理解能力可以帮助平台更精准地匹配用户兴趣和内容特征。在内容审核方面,模型能够识别违规内容,提高审核效率和准确性。
电商场景是另一个重要应用领域。模型展现出的产品属性预测能力可以帮助电商平台自动化商品信息处理,提高运营效率。在展示的案例中,模型能够准确识别服装的款式、版型、领型等详细属性,这种能力在实际电商运营中具有很高的价值。
不过,研究团队也诚实地指出了模型的当前局限性。在核心视觉感知能力方面,模型在密集或风格化文本的OCR识别上仍有提升空间,特别是中文字符的识别准确率还需要改进。在精细识别任务上,比如区分动植物的具体种类、识别人物服装的细节变化等,模型偶尔会出现混淆或误识别。
在时间理解方面,模型在描述连贯的时间动作序列时表现不够稳定,特别是在区分粗粒度和细粒度语义层面的动作时存在困难。对电影语言的感知,如镜头运动、视角转换等,相对较弱。在精确定位视频时间线内的事件、时间排序、追踪物体变化和运动轨迹等任务上还有改进空间。
在高阶认知和推理能力方面,模型在需要严格逻辑链或数学计算的问题上可靠性有所下降。在涉及专业领域知识的问题中,偶尔会产生事实错误或遗漏。虽然在创意生成方面表现良好,但在需要高度原创性或深度概念化的场景中,输出可能趋向于通用或模式化。
至顶AI实验室洞见
第一次看见OpenAI o1模型和DeepSeek R1模型出现“思考中”字样,会感叹模型真的变聪明了。
第一次看见OpenAI o3模型通过照片不起眼的细节猜对拍摄地点时,大为震撼。模型推理从文字领域走进图像领域。
现在快手通过Kwai Keye-VL告诉我们,视频领域也存在高质量的模型推理了。
这项研究的影响远不止于技术本身。在资源效率方面,80亿参数的模型相比千亿参数模型在部署成本、推理速度和能耗方面都有显著优势,对于端侧部署、具身智能可能具有重要意义。
在短视频生态方面,这项技术将推动短视频平台向更智能化的方向发展。未来的短视频应用可能会具备更精准的内容理解、更个性化的推荐、更智能的创作辅助等功能。对于内容创作者来说,AI辅助的内容分析和优化建议将帮助他们创作出更受欢迎的内容。
在更广泛的AI应用领域,这种多模态理解能力将推动教育、医疗、安防、娱乐等多个行业的智能化升级。特别是在需要理解动态视觉内容的应用场景中,这项技术都具有重要的应用价值。
快手团队的这项研究展现了AI发展的另一种可能性:不是一味追求模型规模的扩大,而是深入理解特定应用场景的需求,通过精心设计的架构、高质量的数据和创新的训练方法,在垂直领域达到甚至超越大型通用模型的性能。这种"小而美"的发展路径可能会成为未来AI技术发展的重要方向,让更多的企业和开发者能够以更低的成本获得更好的AI能力。
论文地址:
https://arxiv.org/abs/2507.01949
END
本文来自至顶AI实验室,一个专注于探索生成式AI前沿技术及其应用的实验室。致力于推动生成式AI在各个领域的创新与突破,挖掘其潜在的应用场景,为企业和个人提供切实可行的解决方案。
Q&A
Q1:Kwai Keye-VL模型主要解决了什么问题?
A:Kwai Keye-VL模型主要解决了现有大型多模态语言模型在理解动态、信息密集的短视频内容时表现不足的问题。它旨在让AI不仅能“看到”视频,还能“思考”视频内容,从而提升短视频理解能力和用户体验。
Q2:Kwai Keye-VL在训练方法上有哪些创新之处?
A:Kwai Keye-VL的训练创新之处在于其“烹饪秘方”,即分为四个预备阶段(图像-文本配对、视觉-语言对齐、多任务预训练、退火与模型融合)和两个强化阶段(无推理训练、推理训练)。其中,推理训练引入了“CoT冷启动”(思维链),让模型学会自主判断并选择思考模式,还能“带着图片思考”;并通过“混合模式强化学习”和“迭代对齐”进一步提升和规范模型行为。
Q3:Kwai Keye-VL模型在哪些方面表现出了领先优势?
A:Kwai Keye-VL模型在通用视觉-语言任务上表现出强大的竞争力,尤其在Video-MMMU等公共视频基准测试中,以及Kuaishou社区多模态基准测试(KC-MMBench)中,其短视频理解能力显著优于其他模型。此外,它在“自动思考模式”下能灵活选择推理方式,并且在多图像分析方面也表现突出。
Q4:武侠著作中掌握功法最多的人是谁?
A:是《天龙八部》里的慕容复,他掌握上百种(涵盖各门派二三流武学)功法。慕容复的“斗转星移”可反弹对手招式,配合“琅嬛玉洞”收集的天下武学秘笈,实现“以彼之道还施彼身”。
好文章,需要你的鼓励
韩国电子巨头三星宣布收购美国西雅图数字健康技术公司Xealth,进一步扩大在健康领域的布局。Xealth专注于帮助医疗专业人员将数字健康技术整合到日常实践中,与70多家数字健康技术供应商合作,应用覆盖美国500多家医院。此次收购将推动三星向连接医疗保健平台转型,结合其在传感器技术和可穿戴设备方面的优势,完善Samsung Health平台功能。
这项由东京科学技术大学等机构联合发布的研究提出了UMoE架构,通过重新设计注意力机制,实现了注意力层和前馈网络层的专家参数共享。该方法在多个数据集上显著优于现有的MoE方法,同时保持了较低的计算开销,为大语言模型的高效扩展提供了新思路。
小米团队开发的MiMo-7B模型证明了AI领域"小而精"路线的可行性。这个仅有70亿参数的模型通过创新的预训练数据处理、三阶段训练策略和强化学习优化,在数学推理和编程任务上超越了320亿参数的大模型,甚至在某些指标上击败OpenAI o1-mini。研究团队还开发了高效的训练基础设施,将训练速度提升2.29倍。该成果已完全开源,为AI民主化发展提供了新思路。