让图像生成既快又稳的秘密武器 原创

让图像生成既快又稳的秘密武器

快递员每天的任务是把包裹从仓库送到千家万户。有两种送货方式:一种是随便怎么走,只要最后把包裹送到就行;另一种是App规划好固定路线,必须按这条路走。听起来第一种更自由对吧?但问题是,如果每个快递员都自由发挥,今天走这条路,明天走那条路,整个物流系统就会乱成一锅粥,效率极低。AI图像生成领域最近也面临着类似的困境。

让图像生成既快又稳的秘密武器

2025年11月27日,字节跳动Seed团队提出了一种新方法"对抗流模型",巧妙地解决了这个让AI图像生成领域头疼已久的问题。简单来说,这种方法让AI既能像老司机一样一步到位生成图片,又能像GPS导航一样走固定路线,不再迷路。项目代码在GitHub开源。

为什么AI画图这么"纠结"?

目前主流的AI图像生成方法主要有两大门派,就像武林中的两大流派,各有绝活但也各有软肋。

让图像生成既快又稳的秘密武器

第一个门派叫"流匹配模型",你可以把它想象成一个特别谨慎的导航系统。当你要从A地到B地时,这个导航不会直接告诉你目的地在哪,而是每走一小步就重新计算一次方向。比如你要从北京去上海,它会先告诉你"往南走100米",走完了再说"继续往南走100米",如此反复几十甚至几百次,最终才能到达目的地。这种方法虽然稳定可靠,但效率实在太低了,生成一张图片往往需要几十上百次计算,就像你导航去超市却要停下来问路一百次一样。

第二个门派叫"生成对抗网络",简称GAN,这个名字听起来就很有战斗力。GAN的工作原理就像一场永不停歇的"猫鼠游戏":一个生成器负责画图,一个判别器负责挑毛病。生成器努力画出以假乱真的图片,判别器则努力分辨哪些是真图哪些是假图。通过这种对抗训练,生成器的画技越来越好。GAN最厉害的地方在于它可以"一步到位",只需要一次计算就能生成图片,效率极高。

但GAN有个致命的问题:训练起来特别不稳定,就像一个脾气暴躁的学徒,动不动就闹情绪罢工。研究者们发现,当他们尝试用目前最流行的Transformer架构来训练GAN时,训练过程直接崩溃了,就像一辆车还没开出车库就熄火了。

破案:GAN为什么这么"任性"?

字节跳动的研究团队像侦探一样深入调查,终于找到了GAN训练不稳定的一个关键原因,它太自由了。

还记得我们开头说的快递员比喻吗?GAN就像那个可以随便走的快递员。它的任务是把"噪音"(可以想象成一团乱码)转换成"图像"(清晰的照片)。问题是,从噪音到图像的路线有无数条,GAN可以选择任意一条。今天它可能选择先画轮廓再填颜色,明天可能先画背景再画前景,后天又可能完全换一种方式。这种"没有固定路线"的状态,在数学上叫做"没有唯一的优化目标"。

假设你是一个企业员工,领导给了一个任务但没有标准答案,每次交修改版本领导都说"不太对,再改改",但又不告诉你到底哪里不对、应该怎么改。你可能会越改越生气,最后直接问候领导。GAN的生成器就面临着这样的困境,它不知道该朝哪个方向努力,只能在各种可能性之间来回漂移,训练过程自然就不稳定了。

相比之下,流匹配模型就像有标准答案的考试。它通过一种叫"线性插值"的方法,预先确定了从噪音到图像的唯一路线。每个噪音点应该变成什么样的图像,都是事先规定好的。这种确定性让训练变得稳定可靠,但代价是需要很多步才能完成转换。

鱼与熊掌兼得:对抗流模型的诞生

字节跳动团队的核心创新在于:他们找到了一种方法,让GAN也能拥有固定路线,同时保留一步到位的高效率。这就是他们提出的"对抗流模型"。

核心思路其实很简单:既然GAN的问题是"没有固定路线",那就给它加一条路线约束。具体怎么做呢?他们在GAN的训练目标里加入了一个"最优传输损失"。这个名字听起来很学术,但原理很直观,它要求生成器走最短路。

让图像生成既快又稳的秘密武器

回到快递员的比喻:现在公司规定,你送快递可以选择任何路线,但每一单都会计算你走的距离,走得越远扣分越多。这样一来,所有快递员自然而然就会选择最短路线了。对抗流模型的最优传输损失就是这个"距离扣分机制",它计算生成器输出的图像和输入的噪音之间的距离,距离越大,惩罚越重。

数学上,这种"最短路"恰好就是流匹配模型采用的那条确定性路线。这意味着对抗流模型的生成器最终会学到和流匹配模型完全相同的"噪音到图像"的映射关系,但它是通过对抗训练学到的,可以一步到位完成转换。这就像给一个野路子的老司机配上了GPS导航,既保留了老司机的快准狠,又有了导航的稳定可靠。

研究团队还发现了一个有趣的现象:最优传输损失的强度需要在训练过程中逐渐降低。一开始强度太小,生成器可能会陷入"局部最优",就像导航到了一个死胡同,虽然这条路在局部来看是对的,但全局来看走不通。强度太大也不行,生成器会变得太"懒",直接输出和输入一样的东西,就像快递员为了走最短距离干脆把包裹原封不动退回仓库。所以研究团队采用了一个"退火"策略:训练初期用较大的强度把生成器"拉"到正确的路线上,后期逐渐降低强度让生成器专注于提升图像质量。

一步还是多步?随你选择

对抗流模型还有一个很酷的特性:它既支持一步生成,也支持多步生成,而且两种模式可以统一在同一个框架下。

一步生成就像设定目的地后,导航直接告诉你"目的地在你正前方3公里处",你一脚油门就到了。多步生成则像导航告诉你"先右转500米,再左转1公里,然后直行1.5公里",分几段到达目的地。

传统的流匹配模型只能走多步,每一步都需要重新计算方向。近年来出现了一些一致性模型,试图让模型学会走更大的步子,比如把原本需要100步的路程压缩到4步甚至1步。但这些方法有个问题:即使你只想走1步,训练时仍然需要在所有可能的步数上进行学习。就像你明明只想学开高速,驾校却要求你从倒车入库、侧方停车一直学到山路驾驶,白白浪费了很多时间和精力。

对抗流模型则不同。如果你只想要一步生成,那就只训练一步;如果想要两步生成,就只训练两步的情况。不需要学习那些你用不到的中间步骤。这种"按需学习"的方式不仅节省了模型容量,还减少了训练时间,更避免了误差的累积。想象一下,如果你每学一个新动作都可能犯错,那学100个动作累积的误差肯定比学1个动作大得多。

让图像生成既快又稳的秘密武器

研究团队在论文中展示了多步生成的效果:2步生成和4步生成都能带来进一步的质量提升,这证明了框架的灵活性。他们还尝试了一种"超深模型"的玩法,把一个28层的模型重复执行2次变成56层,或者重复4次变成112层,但仍然只进行一次前向传播。这种设计在保持单步生成的同时,大大增加了模型的深度,最终56层模型达到了2.08的FID分数,112层模型更是达到了1.94的FID分数,超越了需要2步和4步才能达到的效果。

让图像生成既快又稳的秘密武器
让图像生成既快又稳的秘密武器

驯服判别器:一场微妙的平衡术

对抗流模型虽然解决了生成器乱走的问题,但GAN训练中还有另一个老大难问题:生成器和判别器之间的军备竞赛很难平衡。

这就像一场猫鼠游戏。如果老鼠(生成器)学得太慢,猫(判别器)很快就能识别所有假图,此时老鼠收到的反馈全是"你画的太假了",但具体哪里假、怎么改,猫不会告诉它。这在数学上叫梯度消失,生成器收不到有效的学习信号。反过来,如果猫学得太慢,老鼠很容易就能骗过它,也就没有动力继续进步了。

研究团队采用了几种策略来驯服这个棘手的问题。首先,他们使用了一种相对判别器的设计,判别器不是单独评价一张图是真是假,而是比较真图和假图哪个更像真的。这种相对比较的方式让学习信号更加稳定。

其次,他们引入了梯度惩罚机制。这就像给猫戴上了一个限速器,不让它跑得太快,确保老鼠能跟得上。具体来说,他们限制了判别器的输出对输入变化的敏感度,防止判别器过于严格。

最有意思的是他们发现的一个土方法:当训练陷入僵局时,直接把判别器的参数重置到之前某个时间点的状态。这就像猫鼠游戏玩到一半,猫突然失忆了,忘记了之前学到的所有技巧,只好从头开始学。听起来不太优雅,但效果出奇地好。

研究团队还提出了一个梯度归一化技术来解决超参数调节的难题。对抗流模型的生成器需要同时优化两个目标:一个是骗过判别器的对抗损失,一个是走最短路的传输损失。这两个目标的梯度大小可能差距很大,就像你同时想减肥和增肌,减肥的进度条可能跑得飞快,增肌的进度条却几乎不动。梯度归一化技术会自动调整两个目标的相对权重,确保它们能够平衡发展。

为什么对抗训练生成的图更"真实"?

研究团队还发现了一个有趣的现象:即使不使用任何引导技术,对抗流模型生成的图像也比流匹配模型看起来更真实。这背后有一个深刻的原因。

流匹配模型使用的是"欧几里得距离"来衡量误差,就是我们在中学学过的那个两点之间直线距离最短的距离。但问题是,在高维图像空间中,欧几里得距离和人类的感知距离是两回事。

举个例子,假设有两张图片:图片A是一只猫坐在沙发上,图片B是同一只猫坐在椅子上,图片C是一团随机的彩色噪点。从欧几里得距离来看,A和B可能相差很大(因为每个像素都不一样),而A和某种特定的噪点C的距离可能反而更小。但从人类感知来看,A和B明显更相似,它们都是猫的照片,只是背景不同而已。

流匹配模型在学习过程中,如果遇到了从未见过的情况需要"猜测"输出,它会倾向于输出一个在欧几里得距离上最"平均"的结果。这就像让你画一只既像狗又像猫的动物,你可能会画出一个模糊的四足动物轮廓,而不是一只清晰的猫或狗。这种"平均化"的结果在像素层面可能误差很小,但在人类感知上看起来很不自然。

对抗流模型则不同,它的判别器是一个学习过的神经网络,天然会关注那些对人类感知重要的特征。判别器在评价图像时,不是计算像素级的距离,而是提取高层次的语义特征进行比较。这就像请一个艺术评论家来评判画作,而不是用尺子测量画布上每个颜料点的位置。这种"感知距离"而非"欧几里得距离"的优化目标,让对抗流模型能够生成更符合人类审美的图像。

让图像生成既快又稳的秘密武器

研究结果也证实了这一点:在不使用任何引导的情况下,对抗流模型的XL/2版本达到了3.98的FID分数,而流匹配模型即使使用250步采样,FID也只有8.30。这说明对抗训练确实在图像真实感方面有独特优势。

引导的艺术:如何让AI画得更像你想要的

虽然对抗流模型在无引导情况下已经很强,但有时候我们还是需要一些"引导"来让生成的图像更符合特定要求。比如,我们希望生成的图片确实是一只"金毛犬"而不是模棱两可的"某种狗"。

在流匹配模型中,最常用的引导技术叫"无分类器引导"。它的原理是同时训练有条件和无条件两个版本的模型,然后通过调整两者的权重来控制图像对条件的"遵从程度"。这种方法很有效,但有个副作用:它会让生成的图像变得过于"标准化",失去多样性和自然感。就像你让AI画"狗",它每次都画出一只端端正正、姿态标准的狗,而不是现实生活中那些歪着脑袋、趴着打盹的各种姿态。

研究团队为对抗流模型设计了一种"分类器引导"方法。他们训练了一个单独的分类器,在生成过程中加入分类器的梯度信号,引导图像朝着正确的类别方向生成。但这里有个微妙的问题:如果直接在最终生成的图像上计算分类器梯度,效果并不好。因为在高质量图像上,各个类别之间的边界往往很清晰,分类器很容易就能判断对错,此时梯度几乎为零,起不到引导作用。

解决方案是"基于流的分类器引导"。研究团队训练了一个时间条件分类器,可以在不同"噪音程度"的图像上进行分类。然后,他们把生成的图像和随机噪音混合到不同程度,再计算分类器梯度。在混合后的"模糊"图像上,类别边界变得不那么清晰,分类器梯度也就有了意义。这就像给考试题目增加一些模糊性,让优等生也需要仔细思考才能答对,而不是一眼就能看出答案。

实验表明,这种基于流的分类器引导效果更好,最佳FID从2.54提升到了2.38。

实验结果:数字说话

说了这么多原理,让我们看看对抗流模型在实际测试中表现如何。研究团队在ImageNet数据集上进行了全面的实验。ImageNet是图像生成领域最常用的基准测试集,包含1000个类别的130多万张图片,每张图片分辨率为256×256像素。

评价图像生成质量最常用的指标是FID,全称是"弗雷歇起始距离"。FID计算真实图像和生成图像在特征空间中的分布距离,数值越低表示生成的图像越接近真实图像的统计特性。FID为2表示生成质量非常高,FID为10就已经能明显看出是AI生成的了。

让图像生成既快又稳的秘密武器

在单步生成(一次计算就出图)的设置下,对抗流模型的XL/2版本达到了2.38的FID,创造了新的最佳纪录。作为对比,之前最好的一致性模型AlphaFlow的FID是2.81,流匹配模型MeanFlow的FID是3.43。更令人印象深刻的是,对抗流模型的B/2版本(参数量只有1.3亿,是XL/2的五分之一)达到了3.05的FID,接近甚至超过了许多XL/2规模的一致性模型。这说明对抗流模型在利用模型容量方面更高效,它不需要把容量浪费在学习那些用不到的中间步骤上。

在无引导生成的设置下,对抗流模型的优势更加明显。XL/2版本用单步就达到了3.98的FID,用两步更是达到了2.36的FID。而流匹配模型DiT即使用250步采样,FID也只有9.62;SiT用250步达到8.30。这是一个数量级的差距,充分证明了对抗训练在分布匹配方面的优势。

研究团队还展示了深度模型的潜力。通过把28层的模型重复执行4次变成等效的112层,同时保持单步生成,他们达到了1.94的FID,这超过了4步生成的2.02的FID。这个结果意义重大,它表明单步生成的质量瓶颈可能不在训练方法上,而在于模型深度。只要模型足够深,单步就能完成多步才能做到的复杂变换。这为未来的研究指明了一个有前景的方向:与其纠结于如何更好地蒸馏或一致性训练,不如直接训练更深的单步模型。

至顶AI实验室洞见

字节跳动团队的这项研究在理论和实践上都有重要贡献。从理论角度看,他们揭示了GAN训练不稳定的一个核心原因,缺乏唯一的优化目标,并提出了一个优雅的解决方案。从实践角度看,对抗流模型在多个设置下都取得了最佳性能,特别是在单步生成方面的突破,对于需要实时生成图像的应用场景意义重大。

但研究团队也坦诚地讨论了方法的局限性。首先,虽然他们提出了多种技术来稳定训练,但有些技术(比如重置判别器)还不够优雅,缺乏理论上的完美解释。其次,对抗训练相比一致性训练需要更多的计算量,大约是1.88倍,因为需要同时训练生成器和判别器。最后,他们使用的是分类器引导而非无分类器引导,这需要额外训练一个分类器网络。

尽管如此,这项研究为AI图像生成领域开辟了一条新路。它证明了对抗训练和流模型可以优雅地统一,两者的优点可以兼得。更重要的是,它表明深度而非训练方法可能是突破单步生成质量瓶颈的关键。这些洞见将指导未来的研究方向,推动AI图像生成技术继续进步。

字节跳动团队做的事情就像是给一个才华横溢但性格古怪的艺术家配上了一套科学的创作方法论。这个艺术家就是GAN,它天生就有一步画出精美图像的能力,但以前总是发挥不稳定,好的时候惊为天人,差的时候一塌糊涂。现在有了"最优传输"这个导航系统的加持,它终于能够稳定发挥了。而且有趣的是,这个导航系统并没有限制艺术家的创造力,相反,由于它采用的是感知距离而非像素距离的优化目标,生成的图像反而更加自然真实。这项研究给我们的启示是:在AI领域,看似矛盾的方法往往可以找到统一的框架,而突破性的进展常常来自于对基础问题的重新思考。

 

END
本文来自至顶AI实验室,一个专注于探索生成式AI前沿技术及其应用的实验室。致力于推动生成式AI在各个领域的创新与突破,挖掘其潜在的应用场景,为企业和个人提供切实可行的解决方案。

 

Q&A

Q1:对抗流模型和传统GAN有什么区别?

A:传统GAN的生成器可以学习任意从噪音到图像的映射,没有固定路线,导致训练不稳定。对抗流模型加入了最优传输损失,强制生成器走"最短路",学习一个确定性的映射,从而大大提高了训练稳定性。

Q2:对抗流模型能比流匹配模型快多少?

A:对抗流模型可以一步生成图像,而流匹配模型通常需要几十到几百步。在相同质量下,对抗流模型的效率可以提高几十倍甚至上百倍,这对实时图像生成应用非常重要。

Q3:普通用户什么时候能用上这项技术?

A:这项技术目前处于研究阶段,但它的核心思想——更快、更稳定的图像生成——很可能会被整合到未来的AI绘画工具中。随着技术成熟,用户可能会发现AI画图的速度更快、质量更稳定,等待时间大大缩短。

来源:至顶AI实验室

0赞

好文章,需要你的鼓励

2025

12/10

14:40

分享

点赞