你是不是常常遇到这种情况?好不容易写了一段提示词,结果生成的图像却总是差点意思——不是细节对不上,就是整体氛围不对。为什么明明文字描述得很清楚,AI却总是“画不出你心里想的画面”?问题就出在传统图像生成模型的工作方式上。
如果把传统的图像生成方法比作一个严格按照菜谱烹饪的厨师,那么StepFun的NextStep-1就像是一个能够边品尝边根据真实味道做出调整的天才厨师,它可以一边"写作"一边"绘画",用同一套思维逻辑处理文字和图像。
传统的AI图像生成就像两个分工明确的工匠:一个负责理解你的需求描述,另一个负责把这个理解转化为具体的图像。这种分工虽然有效,但就像“传话游戏”一样,信息在传递过程中难免会有损失。更关键的是,这种方法需要将连续的图像信息"切碎"成离散的小块,就像把一幅完整的油画撕成无数个小纸片,然后再试图重新拼接。这个过程不仅会损失细节,还会让整个系统变得异常复杂。
NextStep-1的革命性在于它采用了一种全新的"烹饪哲学"。这个140亿参数的巨大模型就像一个经验丰富的大厨,它不需要严格按照菜谱的每一个步骤,而是能够根据当前的"味道"来决定下一步应该加什么"调料",它能够直接处理连续的图像信息,就像处理连续的文字一样自然。
技术突破的核心秘密
NextStep-1的工作原理就像一个多才多艺的作家,他既能写小说,也能画插图。当你给他一个故事概念时,他会一边构思情节,一边在脑中浮现画面,然后将这两者完美结合。这种"双重创作"的能力来源于一个巧妙的架构设计。
传统的图像生成模型就像一个翻译官,需要先把你的文字描述翻译成一种"中间语言",然后再让另一个专门的画家根据这个中间语言来作画。这个过程中,原始的创意很容易在多次转换中丢失。NextStep-1则完全不同,它能够直接从文字描述跳跃到图像创作,中间没有任何信息损失的环节。
这种能力的实现依赖于一个关键的技术创新:Flow Matching Head。如果把传统的图像生成比作用模具批量生产产品,那么Flow Matching Head就像是一个精细的雕刻刀,能够根据当前的"雕刻进度"来决定下一刀应该怎么下。这个仅有1.57亿参数的小组件,配合主体的140亿参数模型,创造出了令人惊艳的协同效果。
更有趣的是,研究团队发现了一个反直觉的现象:Flow Matching Head的大小几乎不影响最终的图像质量。他们测试了从4000万参数到5.28亿参数的不同规格,结果发现生成的图像质量几乎没有差别。这就像发现了一个神奇的画笔,无论画笔的大小如何,最终画作的质量都取决于画家的技艺,而不是画笔本身。这个发现证明了真正的"创作智慧"存在于那个140亿参数的主体模型中,而Flow Matching Head只是一个精巧的"执行工具"。
数据准备:构建多样化的"营养食谱"
就像培养一个全能型人才需要丰富多样的学习材料一样,NextStep-1的训练需要四种不同类型的"营养餐"。每一种数据都有独特的作用,就像均衡饮食中的蛋白质、维生素、碳水化合物和纤维一样,缺一不可。
第一种是纯文本数据,相当于给模型补充"语言维生素"。研究团队投入了4000亿个文本标记,这些来自Step-3数据集的高质量文本就像给一个学习绘画的孩子同时教授文学一样,确保模型在生成图像的同时不会失去对语言的深度理解。这种做法的智慧在于,一个优秀的画家往往也是一个优秀的故事讲述者。
第二种是图像文本配对数据,这是模型学习"看图说话"和"听话画画"的基础教材。研究团队像精挑细选食材的大厨一样,从海量的网络数据中筛选出了5.5亿对高质量的图像文本配对。这个过程包括了严格的质量检查:美学评分、水印检测、清晰度评估、文字识别,以及最重要的图文语义对齐检查。更有趣的是,他们还使用了Step-1o-turbo模型重新为这些图像撰写了丰富详细的中英文说明,就像给每道菜重新编写了精确的食谱一样。
第三种是指令引导的图像到图像数据,这让模型学会了"改图"的技艺。研究团队收集了约100万个样本,涵盖视觉感知、可控图像生成、图像修复和通用图像编辑等多个方面。这就像教会一个画家不仅要会从头创作,还要会根据客户的具体要求修改已有的作品。他们甚至开发了一套严格的VLM(视觉语言模型)筛选流程,确保每个编辑任务都具有合理性、一致性和指令对齐性。
第四种是交错数据,这是最有创意的"营养补充剂"。这种数据将文本和图像无缝整合,就像制作一本图文并茂的故事书。其中最引人注目的是他们专门构建的"角色中心场景"数据集NextStep-Video-Interleave-5M。这个数据集的制作过程堪称艺术:首先从视频中识别特定角色,然后追踪这些角色在不同场景中的出现,最后为每个场景生成富有故事性的文字描述。这就像为每个电影角色编写了详细的"人物小传",让模型能够理解角色的连续性和故事的逻辑性。
训练策略:循序渐进的"成长计划"
NextStep-1的训练过程就像培养一个从小学生成长为艺术大师的完整教育计划。这个过程分为两个主要阶段:预训练和后训练,每个阶段都有其独特的"课程安排"和"教学目标"。
预训练阶段分为三个递进的学习期,就像从幼儿园到高中的教育过程。第一阶段是基础学习期,模型在这个阶段学习图像的基本结构和构图原理。为了确保训练效率,所有图像都被统一调整到256×256的分辨率,就像让初学者先练习简单的素描一样。训练数据的配比经过精心设计:20%的纯文本确保语言能力不会退化,60%的图文配对数据提供核心的视觉理解能力,20%的交错数据增强多模态理解。这个阶段消耗了约1.23万亿个标记,相当于阅读了数百万本书籍的信息量。
第二阶段引入了动态分辨率策略,就像让学生从简单的线条画进阶到复杂的油画创作。模型开始处理256×256到512×512不同分辨率的图像,并且学会了处理不同的长宽比。这种"不拘一格"的训练方式让模型具备了适应各种画面尺寸的能力,就像一个画家既能画小品也能画巨幅作品一样。
第三阶段是精英化训练,研究团队从前面收集的海量数据中精选出了2000万个最高质量的样本。这些样本就像艺术学院的经典范例,在美学评分、图像清晰度、语义匹配度和无水印程度等方面都达到了极高标准。这个阶段的训练就像让即将毕业的学生反复临摹大师作品,通过与最优秀的范例对话来提升自己的艺术境界。
后训练阶段则像是专业化的进修教育,分为监督微调(SFT)和直接偏好优化(DPO)两个环节。监督微调阶段使用了500万个精选样本,这些样本包含了人类筛选的高质量图文对、思维链(CoT)数据,以及高质量的图像编辑指令数据。思维链数据特别有趣,它教会模型在生成图像之前先进行"语言思考",就像一个画家在动笔之前先在心中构思整个创作过程一样。
直接偏好优化阶段则更加精巧。研究团队构建了两种类型的偏好数据集:标准DPO数据集和自主思维链DPO数据集。标准数据集的制作过程就像艺术评委会的工作:对于每个提示词,让模型生成16张候选图像,然后使用ImageReward评分系统进行排名,从中选择最优和次优的图像组成偏好对。自主思维链数据集则更进一步,要求模型先生成详细的文本推理过程,然后基于这个增强的提示词来生成图像,这就像要求画家不仅要画出好作品,还要能够清晰地解释自己的创作思路。
性能表现:全方位的卓越成果
NextStep-1的表现就像一个在各种比赛中都能获得优异成绩的全能选手。在文本到图像生成的多项基准测试中,它都展现了与顶级扩散模型相媲美的能力,而在自回归模型中更是独占鳌头。
在图像文本对齐能力的测试中,NextStep-1的表现令人印象深刻。在GenEval基准上,它获得了0.63分的成绩,在使用自主思维链技术后更是提升到0.73分。这项测试就像检验一个插画师是否能准确理解客户需求的考试,包括物体计数、空间定位和构图对齐等多个维度。在GenAI-Bench的基础提示测试中,NextStep-1达到了0.88分,在高级提示测试中也有0.67分的表现,使用思维链技术后分别提升到0.90分和0.74分。
特别值得一提的是它在DPG-Bench长文本多对象场景测试中的85.28分成绩。这项测试就像要求一个导演根据复杂的剧本拍摄包含众多角色和道具的电影场景,考验的是模型在处理复杂、详细描述时保持构图完整性的能力。NextStep-1在这项测试中的优异表现证明了它能够很好地处理现实世界中常见的复杂创作需求。
在OneIG-Bench的细粒度评估中,NextStep-1获得了0.417分的综合成绩,这个成绩显著超越了其他自回归模型如Emu3的0.311分和Janus-Pro的0.267分。这项测试就像艺术学院的综合考试,从对齐精度、文字渲染、推理能力、风格控制和多样性等多个维度全面评估模型的艺术创作能力。
在世界知识整合能力的WISE基准测试中,NextStep-1展现了0.54分的基础成绩,使用自主思维链后提升到0.67分。更令人惊讶的是,在提示词重写协议下,它的成绩可以达到0.79分,使用思维链后更是高达0.83分。这项测试就像考察一个历史画家是否能准确描绘不同时代、文化和科学概念的综合能力,涵盖了文化、时间、空间、生物、物理和化学六个知识领域。
图像编辑能力:创意修改的艺术
NextStep-1不仅能够从零开始创作图像,它的图像编辑能力同样令人赞叹。研究团队基于NextStep-1开发了专门的编辑版本NextStep-1-Edit,这就像给一个已经很优秀的画家再教授修复古画和定制改画的专业技能。
在GEdit-Bench英文提示的全套测试中,NextStep-1-Edit获得了6.58分的综合成绩。这项测试就像委托一个艺术修复师根据详细的文字指导对现有画作进行修改,考验的不仅是技术精度,还有对指令理解的准确性和修改结果的美学质量。测试包含了三个核心维度:语义一致性(G_SC)、感知质量(G_PQ)和整体评价(G_O),分别评估修改后的图像是否符合指令要求、视觉质量是否良好,以及整体效果是否令人满意。
在ImgEdit-Bench测试中,NextStep-1-Edit获得了3.71分的成绩,这个分数与业内领先的专业编辑工具如Flux.1-Kontext-dev相当。这项测试更像是实际的商业项目委托,要求模型根据各种实用性的编辑指令对图像进行精确修改,包括对象添加、材质改变、背景替换、色彩调整等多种常见的编辑需求。
NextStep-1-Edit的编辑能力覆盖了广泛的应用场景。在对象操作方面,它能够精确地添加新物体、改变现有物体的材质或属性。在环境调整方面,它可以无缝地更换背景、调整光照条件或改变整体色调。在风格转换方面,它能够在保持原始内容的基础上应用不同的艺术风格。甚至在复杂的自由形式编辑中,比如让静态人物做出不同的动作或表情,NextStep-1-Edit也能够生成令人满意的结果。
关键技术洞察:深入理解成功的秘密
通过大量的实验分析,研究团队发现了几个关于NextStep-1成功的重要洞察,这些发现就像揭示了一个成功艺术家背后的创作秘密。
首先是关于模型架构的重要发现:真正的"创作大脑"是那个140亿参数的变换器主体,而不是Flow Matching Head。研究团队通过对比实验发现,即使大幅改变Flow Matching Head的规模(从4000万参数到5.28亿参数),最终的图像生成质量几乎没有差异。这个现象就像发现一个优秀画家的创作天赋主要来自于大脑中的艺术思维,而不是手中画笔的精细程度。这意味着NextStep-1真正采用的是纯粹的自回归范式,Flow Matching Head只是一个轻量级的"执行工具",负责将变换器的预测转换为连续的图像标记。
其次是关于图像标记器重要性的深刻认识。研究团队发现,图像标记器的重构质量从根本上决定了最终生成图像质量的上限。这就像建筑材料的质量决定了整栋建筑的结构强度一样。他们基于Flux VAE进行了专门的优化,通过通道归一化和随机扰动技术,创造了一个更加稳定和鲁棒的潜在空间。
特别值得关注的是他们发现的一个反直觉现象:在训练图像标记器时,增加噪声强度虽然会增加生成损失,但却能显著提高最终图像的质量。这个发现就像发现适度的"困难训练"反而能培养出更强的能力。具体来说,NextStep-1使用了γ=0.5的噪声强度,这虽然导致了最高的训练损失,但却产生了最高质量的图像。相比之下,追求低训练损失的设置反而导致模型输出接近纯噪声的结果。
这种噪声正则化技术带来了两个关键好处:首先是增强了标记器解码器对潜在扰动的鲁棒性,就像让一个画家在各种光线条件下都能保持稳定的作画水平。其次是创造了更加分散的潜在分布,这种分布特性已经被多项研究证明有利于高质量的生成效果。
研究团队还解决了VAE基自回归模型中的一个关键技术问题:在强分类器自由引导下的视觉伪影问题。传统方法在使用高引导强度时经常出现灰色斑块等问题,这就像画家在用力过度时容易把画纸撕破一样。NextStep-1通过通道归一化技术解决了这个问题,确保了在不同引导强度下标记级统计的一致性,从而避免了分布漂移导致的视觉缺陷。
挑战与局限:成长路上的考验
尽管NextStep-1取得了显著的成功,但研究团队也诚实地分析了当前面临的挑战和局限性。这些问题就像一个优秀学生在成长过程中遇到的新课题,需要进一步的研究和改进。
在高维连续标记处理方面,NextStep-1偶尔会出现一些生成伪影。当从较低维度的潜在空间(比如8倍空间下采样,4个潜在通道)转换到更高维度空间(8倍空间下采样,16个潜在通道)时,模型有时会产生几种类型的问题。这些问题包括局部噪声或块状伪影、全局噪声,以及细微的网格状伪影。研究团队认为这些问题可能源于数值不稳定性、训练不足或一维位置编码在捕获二维空间关系时的局限性。
推理速度是另一个需要关注的问题。在H100 GPU上的理论分析显示,对于批处理大小为1的情况,主要的速度瓶颈来自于LLM的串行解码过程,而Flow Matching Head的多步采样也占据了相当大的计算开销。这就像一个画家需要一笔一笔地完成画作,而不能像某些技术那样"批量处理"。不过,这个问题有几个可能的解决方案:减少Flow Matching Head的参数数量、应用蒸馏技术实现少步生成、使用更先进的少步采样器,或者借鉴LLM领域的推测解码和多标记预测等加速技术。
在高分辨率训练方面,NextStep-1面临着比扩散模型更大的挑战。严格的序列化生成特性要求在高分辨率下需要更多的训练步骤才能收敛,这就像学习绘制大型壁画需要比小幅作品更多的练习时间。此外,专为高分辨率扩散模型开发的技术(如时间步移位)很难直接应用到这种逐块自回归生成的框架中,因为Flow Matching Head主要充当采样器的角色,而核心的生成建模由变换器主体完成。
在监督微调(SFT)过程中,研究团队发现了一个有趣的现象:与扩散模型不同,NextStep-1需要大规模的数据集才能实现稳定的微调效果。小规模的高质量数据集往往导致不稳定的训练动态,模型要么改进甚微,要么突然过拟合到目标分布。这就像培养一个全能型人才需要广泛的学习材料,而不能仅仅依靠少数几个范例。找到既能与目标分布对齐又能保持通用生成能力的中间检查点,仍然是一个重要的研究课题。
至顶AI实验室洞见
NextStep-1为自回归图像生成领域指明了几个重要的发展方向。这些方向就像为未来的研究者绘制了一幅技术发展的路线图。
在推理加速方面,有多个有前景的研究路径。Flow Matching Head的优化可以通过参数缩减、蒸馏技术或先进采样器来实现。更有趣的是,LLM领域的推测解码和多标记预测技术可能为图像标记生成带来新的加速可能性。这就像从其他艺术领域借鉴技巧来提高绘画效率一样。
高分辨率生成是另一个重要的发展方向。研究团队认为需要专门为逐块自回归模型设计新的高分辨率生成策略,而不是简单地移植扩散模型的技术。这可能涉及新的位置编码方案、更好的空间关系建模,或者创新的多尺度训练策略。
在模型架构方面,研究团队的发现为未来的自回归视觉模型设计提供了重要指导。既然变换器主体承担了主要的生成建模任务,未来的研究可能会更多地关注如何优化这个核心组件,而不是过分关注输出头的复杂性。
数据质量和标记器设计的重要性也为未来研究指明了方向。更好的数据筛选策略、更先进的重新标注技术,以及更鲁棒的图像标记器设计,都将是推动这个领域发展的关键因素。
最后,NextStep-1在图像编辑方面的成功表现为多模态应用开辟了新的可能性。未来的研究可能会探索更复杂的编辑任务、更精细的控制机制,以及与其他模态(如音频、视频)的整合。
NextStep-1的意义在于它证明了自回归范式在图像生成领域的巨大潜力。就像第一批成功的飞行器证明了人类飞行的可能性一样,NextStep-1为未来的视觉AI发展开辟了一条全新的技术路径。这种统一的多模态生成方法可能会成为下一代AI系统的基础架构,让机器能够像人类一样自然地在语言和视觉之间切换,真正实现"所思即所得"的智能创作体验。
对于普通用户而言,这意味着未来的AI创作工具将变得更加智能和易用。你可以更自然地描述你的创意想法,AI也能更准确地理解和实现你的视觉需求。而对于研究者和开发者来说,NextStep-1开源的承诺将为整个社区提供宝贵的学习和改进机会,推动整个领域向前发展。
论文地址:https://arxiv.org/pdf/2508.10711
Q&A
Q1:NextStep-1和传统的AI图像生成有什么不同?
A:传统方法需要先理解文字,再转换成图像,就像翻译一样会有信息损失。NextStep-1则能直接从文字描述跳到图像创作,就像一个既会写作又会画画的艺术家,避免了中间转换的信息丢失。
Q2:NextStep-1的图像编辑功能有多强?
A:NextStep-1-Edit在专业评测中获得了6.58分(GEdit-Bench)和3.71分(ImgEdit-Bench)的成绩,能够进行对象添加、材质改变、背景替换、色彩调整等各种编辑操作。它就像一个专业的图像修复师,既能做精细调整,也能进行创意改造。
Q3:普通人能使用NextStep-1吗?
A:目前NextStep-1的代码和模型已经在Github开源(github.com/stepfun-ai/NextStep-1),可以自由使用和改进。
好文章,需要你的鼓励
人工智能代表着第四次工业革命的到来,它不仅是机械化工具,更是全球范围内增强、合作和颠覆的催化剂。AI已深度融入日常生活,在医疗、国防、金融和公共治理等领域发挥变革作用。与以往技术不同,AI能够增强人类决策能力,提升效率和创新。然而,算法偏见、网络安全威胁和隐私问题等风险不容忽视。未来AI发展需要政府、企业和学术界协调合作,建立伦理、法律框架,确保AI成为推动人类进步的积极力量。
腾讯微信AI团队开发的ComoRAG系统通过模仿人脑认知机制,让AI具备了动态记忆和循环推理能力,在长文本理解任务上相比传统方法准确率提升高达11%。该系统采用三层知识组织结构和五步认知循环过程,能够像侦探破案一样主动探索线索、整合信息、构建完整推理链条,特别在处理复杂叙事推理问题时表现优异,标志着AI从信息检索工具向智能推理伙伴的重要转变。
随着现代AI技术对数据中心基础设施提出新要求,"AI数据中心"一词使用日益频繁。然而,这一术语的定义仍不清晰,AI数据中心与传统数据中心的区别并不明显。AI数据中心通常具备更大容量、GPU加速硬件、优化网络设备、高效冷却系统等特征,但这些特性并非AI独有。与其投资专门的AI设施,企业或许应考虑改造现有数据中心来支持AI工作负载。
新加坡南洋理工大学团队开发的4DNeX系统实现了从单张照片生成完整4D动态场景的突破。该技术采用6D视频表示法融合RGB颜色和XYZ空间信息,构建了包含920万帧数据的4DNeX-10M大规模数据集,通过改进视频扩散模型实现15分钟内的高效生成,在动态程度和一致性指标上显著优于现有方法,为虚拟现实、影视制作等领域提供了新的技术路径。