颠覆式创新还是学术诈骗?韩科院联名谷歌发布新模型架构MoR 原创

颠覆式创新还是学术诈骗?韩科院联名谷歌发布新模型架构MoR

颠覆式创新还是学术诈骗?韩科院联名谷歌发布新模型架构MoR

2025年7月16日,风投公司MenloVentures的Deedy最近在X上发文称,Google DeepMind刚刚发布了一个叫Mixture-of-Recursions的新大语言模型架构。但最惊掉下巴的言论是最后一句:“有潜力杀死Transformer”。

这段文字短短几行,已经有20万浏览量,好评一片,但可能存在两个严重问题!

问题一:谷歌DeepMind并未直接参与研究,为何只谈谷歌发布?

颠覆式创新还是学术诈骗?韩科院联名谷歌发布新模型架构MoR

首先,从论文作者可以看出,一二作者都来自KAIST(韩国科学技术院),谷歌作者排在第五位以后。

颠覆式创新还是学术诈骗?韩科院联名谷歌发布新模型架构MoR

最重要的是,论文里的一段原话,翻译过来就是:谷歌的合著者在这篇论文中仅仅扮演了顾问的角色。

也就是说谷歌DeepMind并没有直接参与研究执行,名字却被拿来大肆宣扬了。

问题二:MoR来源于Transformer,何谈“杀死Transformer”?

论文摘要也明确说了MoR源于递归Transformer:作者发明了MoR,用一个统一的框架,在单个递归 Transformer内部结合了这两种效率轴(参数共享和自适应计算)。

类似于“我干掉了自己”的这种逻辑,似乎也不太合适。

所以,这篇论文的影响力有可能被Deedy夸大了。

(以上仅代表个人观点)

虽然有风投炒作,我们还是不要对论文真实水平产生偏见,下面一起来品读一下内容:

颠覆式创新还是学术诈骗?韩科院联名谷歌发布新模型架构MoR

2025年7月14日,来自于韩国KAIST、Mila、Google的研究人员提出MoR架构,通过智能路由器为每个文字分配个性化处理深度,实现参数共享与自适应计算的统一。MoR在保持模型性能的同时显著提升计算效率,在1.35亿到17亿参数规模上验证有效,推理速度最高提升2倍以上,为构建更高效智能的语言模型提供了新思路。

要理解这项研究,我们可以把语言模型想象成一个工厂。有些产品很简单,可能只需要基础处理就够了;有些产品很复杂,需要反复打磨才能达到标准。如果所有产品都走同样的流程,就会造成巨大的浪费。

MoR的创新之处就在于创造了一个"智能生产线"系统。这个系统最巧妙的地方是配备了一个聪明的"调度员"(路由器),它能够观察每一个进入工厂的产品(文字token),然后做出决定:这个产品需要经过多少轮处理才能达到最佳效果?简单的产品可能只需要一轮,复杂的产品可能需要三轮甚至更多。

这个智能工厂还实现了设备的高效重复利用。传统工厂需要为每个处理步骤配备独立的设备,成本高昂。而MoR的工厂则采用了循环利用的设计:同一套高质量的处理设备可以被反复使用,只要产品需要进一步处理,就再次通过这套设备。这样既保证了处理质量,又大大降低了设备投资成本。

智能调度的两种策略:专家选择与Token选择

颠覆式创新还是学术诈骗?韩科院联名谷歌发布新模型架构MoR

MoR系统的核心是其智能调度机制,研究团队设计了两种不同的调度策略,每种都有其独特的优势和适用场景。

第一种策略叫做专家选择路由,这就像一个高端餐厅的服务模式。在这种模式下,每个处理级别都是一位挑剔的大厨,他们会仔细观察所有等待处理的食材(文字token),然后精心挑选自己认为最适合处理的那些。比如说,负责"基础处理"的大厨可能会选择那些看起来相对简单的食材,而负责"精细加工"的大厨则专门挑选那些需要更多技巧的复杂食材。

这种方式的最大优点是能够完美控制每个处理级别的工作量,就像确保每位大厨都不会过载或闲置。然而,这种方式也有一个问题:大厨们需要看到所有食材才能做出最好的选择,这在实际的流水线作业中会带来一些技术挑战。为了解决这个问题,研究团队引入了辅助路由器的概念,就像给每位大厨配备一个助手,专门负责在不看到全部食材的情况下,预测哪些食材最适合这位大厨处理。

第二种策略叫做Token选择路由,更像是一个个性化定制服务。在这种模式下,每个产品(文字token)一进入工厂,系统就会为它量身定制一个完整的处理方案:这个产品需要经过几轮处理,每一轮都使用什么强度的处理方式。这种方式的好处是避免了信息泄露的问题,每个产品的处理方案都是独立制定的,不依赖于其他产品的信息。

不过,这种个性化定制也带来了新的挑战:如何确保工厂的各个处理环节都能得到合理的工作量分配?毕竟,如果所有产品都选择同一种处理方式,就会导致某些环节过载而其他环节闲置。研究团队为此开发了"负载平衡损失"技术,就像一个智能的工作量分配系统,通过调整激励机制来鼓励产品选择那些相对不那么繁忙的处理路径。

两种策略在实际应用中各有千秋。专家选择路由在控制资源消耗方面表现优异,特别适合那些对计算预算有严格要求的场景。而Token选择路由则在处理复杂多变的任务时显示出更好的适应性,尽管可能需要额外的负载平衡机制来维持系统的稳定运行。

记忆管理的创新:两种缓存策略的巧妙设计

在智能工厂的运行过程中,还有一个关键问题需要解决:如何高效地管理和存储处理过程中产生的中间结果?

传统的语言模型在处理文字时,需要存储大量的键值对(KV pairs)信息,这些信息就像厨师的备忘录,记录着每个词语在不同处理阶段的特征和状态。然而,当模型变得越来越大、处理的文本越来越长时,这些备忘录就会占用巨大的存储空间,严重影响处理速度。

颠覆式创新还是学术诈骗?韩科院联名谷歌发布新模型架构MoR

MoR团队针对这个问题设计了两种创新的缓存策略。第一种叫做递归式缓存,这种方式就像为每个处理级别设置专门的储物柜。当产品在某个级别进行处理时,只有在该级别活跃的产品信息会被存储在对应的储物柜中。这样做的好处是存储需求大大减少,因为每个储物柜只需要存放当前正在该级别处理的产品信息,而不是所有产品的信息。

更巧妙的是,这种缓存策略还实现了注意力计算的优化。在传统模型中,每个词语都需要关注文本中的所有其他词语,这就像每个厨师都要同时关注厨房里的所有食材。而在递归式缓存中,每个词语只需要关注那些在同一处理级别活跃的其他词语,大大减少了计算复杂度。

第二种策略叫做递归共享缓存,采用了一种更加激进的资源共享方式。在这种模式下,系统只在第一轮处理时生成和存储键值对信息,然后在后续所有处理轮次中重复使用这些信息。这就像厨师只在开始时记录一次所有食材的基础信息,然后在整个烹饪过程中都参考这个初始记录。

这种共享策略的最大优势是内存使用效率极高,特别是在处理长文本时能够显著减少存储需求。同时,它还能加速"预填充"过程,就像厨师可以跳过重复记录食材信息的步骤,直接开始烹饪。然而,这种策略也有其局限性:由于所有处理轮次都使用相同的基础信息,可能会在某些需要精细调整的场景中影响最终效果。

研究团队通过大量实验发现,这两种缓存策略在不同场景下各有优势。递归式缓存在需要精确控制每个处理步骤的场景中表现更佳,而递归共享缓存则在内存受限或需要快速处理大量文本的场景中展现出明显优势。更重要的是,这两种策略都与MoR的整体架构完美融合,实现了参数共享、自适应计算和高效缓存的三重统一。

实验验证:从理论到实践的全面验证

为了证明MoR系统的实际效果,研究团队设计了一系列实验验证。

实验的基础设施选择了业界广泛认可的Llama架构作为测试平台,数据来源则是精心筛选的FineWeb-Edu教育数据集。这就像选择了一个标准化的生产线和优质的原材料,确保实验结果的可信度和可比性。研究团队测试了四种不同规模的模型:从1.35亿参数的"微型工厂"到17亿参数的"小型工厂",并没有覆盖更大的应用场景。

颠覆式创新还是学术诈骗?韩科院联名谷歌发布新模型架构MoR

在等计算量对比实验中,MoR展现出了优势。当给定相同的计算资源预算时,MoR能够处理更多的训练数据,这就像同样的电费开支下,智能工厂能够生产出更多的产品。具体来说,在使用仅约一半参数量的情况下,MoR在验证准确率上不仅达到了传统方法的水平,在某些任务上甚至表现更优。这种效率提升在更大规模的模型上表现得尤为明显。

更有趣的是等数据量对比实验的结果。当使用相同数量的训练数据时,MoR能够以更少的计算资源达到同样甚至更好的效果。这相当于用更少的时间和电力生产出同样质量的产品,体现了系统设计的优越性。在这种设置下,MoR模型的训练时间减少了19%,内存使用降低了25%,同时还保持了更好的性能表现。

实验中最引人注目的发现之一是MoR在不同任务上的一致性表现。无论是语言理解任务(如HellaSwag、PIQA)还是常识推理任务(如ARC、MMLU),MoR都显示出稳定的改进效果。这种一致性证明了系统设计的通用性,就像一个优秀的智能工厂不仅能生产单一产品,还能灵活适应各种不同类型的生产需求。

颠覆式创新还是学术诈骗?韩科院联名谷歌发布新模型架构MoR

在推理速度测试中,MoR的优势更加明显。通过实施连续深度批处理技术,系统能够在推理过程中动态调整批处理大小,充分利用硬件资源。实验结果显示,在最优配置下,MoR的推理速度比传统方法提升了2.06倍,这种速度提升对实际应用具有重要意义。

研究团队还进行了详细的消融实验,系统地验证了MoR各个组件的贡献。通过逐步移除或替换不同的设计选择,他们发现每个组件都对最终性能有着重要贡献,而且这些组件之间存在协同效应。特别是在参数共享策略的选择上,"中间循环"策略在所有测试规模上都表现最佳,这为实际应用提供了明确的指导。

深入分析:智能分配的工作原理

通过对MoR系统工作过程的深入分析,研究团队揭示了许多有趣的现象,这些发现帮助我们更好地理解智能调度系统是如何做出决策的。

最引人注目的发现是系统对不同类型词语的处理策略存在明显的智能性模式。研究团队通过可视化分析发现,系统会自动将更多的计算资源分配给那些在语义上更重要或更复杂的词语。比如,像"defensively"这样的副词、"confident"这样的形容词,以及"Drugs"这样的专有名词,往往会被分配到更深的处理级别。相比之下,像"and"、"the"这样的功能词,以及标点符号,通常只需要经过一轮基础处理就足够了。

这种智能分配策略反映了系统对语言结构的深层理解。就像一个经验丰富的编辑在校对文章时,会在关键词汇和复杂句式上花费更多时间,而对基础的语法结构快速浏览一样。MoR系统通过学习,自动掌握了这种高效的注意力分配策略。

颠覆式创新还是学术诈骗?韩科院联名谷歌发布新模型架构MoR

在路由器的决策分析中,研究团队发现了另一个有趣现象:当使用专家选择路由配合辅助损失时,系统能够实现几乎完美的二元分类。被选中的词语的路由分数会聚集在1.0附近,而未被选中的词语的分数则聚集在0.0附近,中间几乎没有模糊地带。这种清晰的决策边界表明系统已经学会了明确的选择标准,而不是在不确定中摇摆。

计算最优扩展分析揭示了MoR在资源分配上的独特优势。与传统模型更偏向于增加训练数据量不同,MoR在相同计算预算下更倾向于增加模型规模。这种偏好反映了参数共享架构的特点:共享的参数块质量越高,整个系统的性能提升就越明显。这就像投资一套高品质的生产设备,虽然初期投入较大,但长期收益会持续增长。

测试时扩展能力的分析显示了MoR的另一个重要特性:系统可以在推理时动态调整处理深度,实现性能的进一步提升。当允许某些词语经过更多轮次的处理时,系统的整体表现会显著改善。这种能力为实际应用提供了灵活性:在对准确性要求极高的场景中,可以允许系统使用更深的处理;在对速度要求更高的场景中,则可以限制最大处理深度。

至顶AI实验室洞见

这篇论文优缺点都比较明显。

颠覆式创新还是学术诈骗?韩科院联名谷歌发布新模型架构MoR

最大的缺点是,实验数据来源于1.35亿参数到17亿参数的模型,所选模型参数量甚至达不到普通百元显卡的最大负载,完全无法证明MoR在最常见的场景中的优越性:个人电脑(能运行百亿参数模型)和AI服务器(能运行千亿至万亿参数模型)。

所以,我建议拿去给KnoVo查一查是否水论文了论文有多水?这个AI系统一眼识破:KnoVo自动评估学术论文创新值。

下面说说优点:最明显的优点是,名字取的好,Mixture-of-Recursions(MoR)和颠覆性的Mixture-of-Experts(MoE)如出一辙,毕竟好的名字是成功的一半(真心的)。

而且MoR也是一种新的模型架构,体现了向个性化智能制造的转变,每个输入都能获得量身定制的处理方案,提升模型效率。在实际应用中,不同的文本片段确实需要不同程度的理解深度。

MoR的为未来的研究方向提供了启示。参数共享与自适应计算的结合证明了"效率"与"效果"并不是零和游戏,通过巧妙的设计可以同时实现两者的提升。这种思路可能会激发更多创新性的架构设计。

说到底,还是让子弹再飞一会儿吧。

论文地址:
https://www.arxiv.org/abs/2507.10524

END

本文来自至顶AI实验室,一个专注于探索生成式AI前沿技术及其应用的实验室。致力于推动生成式AI在各个领域的创新与突破,挖掘其潜在的应用场景,为企业和个人提供切实可行的解决方案。

 

Q&A

Q1:Mixture of Recursions 框架是什么?MoR是什么?

A:MoR 是一个统一框架,结合参数共享和自适应计算来提高语言模型效率。它重用共享层栈减少参数数量,同时用轻量级路由器动态分配每个token的递归深度。这允许只对活跃token执行注意力计算,并选择性缓存键值对优化内存。MoR 还提出KV共享变体来降低延迟,在模型规模如135M到1.7B参数下,它改善了困惑度和吞吐量。

Q2:Mixture of Recursions 使用哪些路由策略?

A:MoR 采用两种路由策略:expert-choice 和 token-choice。Expert-choice 路由在每个递归步骤选择top-k token继续处理,模拟提前退出行为。Token-choice 路由在开始时分配固定递归深度给每个token,定义完整计算路径。Expert-choice 保证负载均衡但可能泄露信息,token-choice 避免泄漏但需平衡机制。实验显示,expert-choice 路由性能通常更优,如few-shot准确性更高。

Q3:Mixture-of-Recursions 的主要优势是什么?

MoR 在效率和质量上优于基线模型,如同等FLOPs下减少参数并提高准确性。它通过分层过滤和递归注意力降低训练FLOPs,提升吞吐量高达2.06倍。KV缓存策略减少内存占用,连续深度级批处理加速推理。在规模如360M参数上,MoR 匹配或超越Vanilla Transformer性能。

来源:至顶AI实验室

0赞

好文章,需要你的鼓励

2025

07/17

17:24

分享

点赞