Llama时代要翻篇了？Meta突然换了打法，Muse Spark登场原创

作者：刘文轩

Meta 悄悄放弃了 Llama？一个叫 Muse Spark 的新 AI 横空出世，背后藏着一场惊天大翻身。

2025 年，Meta 的 AI 旗舰产品 Llama 4 发布后口碑惨淡，外界甚至揭出它在测评中用了“开小灶”的特训版本，和普通用户实际体验到的根本不是同一个东西。这对马克·扎克伯格来说是个不小的打击，于是他做了一个罕见的决定：彻底推翻重来。

2025 年 6 月，Meta 斥资 143 亿美元挖来了数据标注公司 Scale AI 的联合创始人、年仅 29 岁的汪滔，任命他为公司史上第一位首席 AI 官，并组建了全新的精英部门——Meta 超级智能实验室（Meta Superintelligence Labs，MSL）。九个月后，这场豪赌终于亮出底牌：2026 年 4 月，Muse Spark 正式发布，内部代号曾叫“牛油果”，是 MSL 诞生以来的第一款模型，也是 Meta 有史以来第一款完全闭源的专有 AI 产品。

彻底重建，而非修修补补

Muse Spark 不是在 Llama 的基础上打个补丁，而是从零开始搭建了一套全新的体系——新的预训练架构、新的数据处理流程、全新的强化学习训练方法。MSL 内部流行一句口号：“做出演示，而不是写备忘录”，意思是别光开会讨论，拿出真正能跑的东西来说话。

这款模型最核心的特点是“原生多模态”——它从设计之初就把看图和推理融为一体，而不是把两个功能拼凑在一起。以前的 AI 理解图像和理解文字是两套独立系统，好比用胶水把两个机器人粘在一起，能用，但总显得笨拙。Muse Spark 则实现了真正的“视觉思维链”：你拍下一台咖啡机让它帮你操作，它能看图识别型号并逐步指导；你拍下自己做瑜伽的姿势，它能对比标准动作指出问题所在。

除了“会看”，它还有一个全新的“深思模式”（Contemplating mode）。遇到复杂问题时，它不是让一个 AI 独自冥想更长时间，而是派出多个“子 AI 助手”同时并行工作，各自从不同角度切入，最后综合结论。好比一道难题，与其让一个人闷头想三小时，不如叫来三个人各想一小时再碰头讨论——速度和质量都能提升。

“思维压缩”，用更少的算力做更多的事

Muse Spark 最令人印象深刻的，是它惊人的计算效率。

Meta 训练这款模型时引入了一个叫“思维压缩”（thought compression）的技术。通俗来说，就是在训练过程中给模型立规矩：你每多用一个推理步骤，就要被扣分。久而久之，模型学会了用更精炼的思路解决同样的问题，就像一个话多的人被反复提醒“说重点”，最终练就了言简意赅的本事。

效果非常显著。在第三方机构 Artificial Analysis 的标准测试中，Muse Spark 完成整套题目所用的“推理步骤”大约是 5800 万个，而 Claude Opus 4.6 用了约 1.57 亿个，GPT-5.4 用了约 1.2 亿个。换句话说，Muse Spark 用不到竞争对手一半的“脑力消耗”，就达到了相近乃至更好的结果。Meta 官方数据还显示，Muse Spark 达到与上一代旗舰 Llama 4 Maverick 相当的能力，所需计算量却不到后者的十分之一。

全球第四，视觉理解领跑

在第三方 AI 综合评分榜单“智能指数”上，Muse Spark 拿到 52 分，位列全球第四，仅次于 Gemini 3.1 Pro Preview（57 分）、GPT-5.4（57 分）和 Claude Opus 4.6（53 分）。而 Meta 上一代的 Llama 4 Maverick 在同一榜单只有 18 分——Muse Spark 几乎是它的三倍。

在视觉理解这个细分赛道，Muse Spark 表现尤为突出。一项专门考验 AI 理解复杂图表和数字逻辑的测试 CharXiv Reasoning 中，它拿到 86.4 分，明显领先于 Claude Opus 4.6 的 65.3 分、谷歌 Gemini 3.1 Pro 的 80.2 分和 GPT-5.4 的 82.8 分。综合视觉理解测试 MMMU Pro 中，它以 80.4 分位居全球第二。

当然，Meta 自己也坦承了短板：代码编写和长周期自主任务这两个领域，Muse Spark 与头部产品之间仍有明显差距。这恰恰是企业客户最感兴趣的场景，也是接下来需要重点补课的方向。

谁能用？用在哪里？

Muse Spark 目前已上线 Meta AI 独立应用和 meta.ai 网站，免费使用，未来几周将陆续进入 Facebook、Instagram、WhatsApp、Messenger 以及 Meta 的 Ray-Ban AI 智能眼镜。

Meta 专门为它设计了几个差异化场景。购物模式结合了平台上海量创作者内容和用户个人兴趣标签，能给出真正贴近你偏好的推荐——这是 OpenAI 或谷歌这类没有社交图谱数据的对手很难复制的能力。健康查询场景下，你拍下超市货架上的零食，它能分析营养成分，结合你的饮食目标给出建议。深思模式则适合处理法律文件解读、学术论文分析等需要多步推理的复杂任务。

此外，Meta 计划未来通过 API 向合作方开放 Muse Spark，目前处于私有预览阶段，尚未公开定价。这意味着它不只是自家 APP 的内部引擎，还在尝试成为一个对外商业化的平台产品。

从开源英雄到闭源挑战者

Muse Spark 最大的争议不在技术，而在策略转向：彻底闭源。

曾经，Meta 的 Llama 系列是全球开发者的福音——任何人都可以免费下载、修改、部署，有数据显示这比购买 OpenAI 等付费 API 节省高达 88% 的成本。这套开源哲学让 Meta 赢得了大量好感，也孵化了庞大的开发者生态。

但 Muse Spark 把这扇门关上了。Meta 表示“希望未来开源部分版本”，但目前外部开发者无法自行部署，只能通过 Meta 平台或未来开放的 API 接入。背后的商业逻辑直白：Meta 在 AI 上花了太多钱，2026 年资本支出计划高达 1150 亿至 1350 亿美元，迫切需要找到变现路径。发布当天，Meta 股价涨超 9%，收盘上涨 6%，说明市场对这个转向是认可的。

Muse Spark 证明了 Meta 有能力重新站回全球顶级 AI 的队列，但离真正定义下一代 AI 还有距离，是一次扎实的回归。不过这只是 Muse 系列的第一款，更大规模的后续版本已经在路上。扎克伯格说，Muse Spark 是迈向“个人超级智能”的起点——一个真正了解你、帮你购物、健身、看病单、规划旅行的 AI。这个愿景能不能实现，就看接下来几步了。

END
本文来自至顶AI实验室，一个专注于对AI计算机、工作站及各类AI相关硬件设备，开展基于真实使用场景评测的研究机构。‍

来源：至顶AI实验室

0赞

好文章，需要你的鼓励

Llama时代要翻篇了？Meta突然换了打法，Muse Spark登场 原创

来源：至顶AI实验室

2026

04/10

15:40

分享

点赞

Inbolt将在Automate展会发布视觉驱动机器人编程新功能

笔记本电脑深度清洁指南：内外兼修焕然一新

加利福尼亚州城市通过全美首个由选民投票决定的数据中心禁令

柴油替代方案：AI数据中心如何利用燃气引擎与蒸汽涡轮供电

AI定义汽车时代，车载以太网可靠性面临全新挑战

安全算法的持续更新正变得愈发困难

轨道数据中心本质上是功能强化的卫星

Infineon Live Lab正式发布：全球首个实时云端实体硬件评估平台

Serve Robotics携手NoScrubs，自主配送机器人跨界拓展洗衣服务

Workr Robotics CEO：工业机器人自动化应按小时付费

专访CreateMe CEO：从缝纫到粘合，实体AI如何重塑服装制造

AI浪潮为集成商带来全新连接挑战

微软Azure英国南部区域容量告急，现有客户服务受波及

Meta推出多模态推理模型Muse Spark，医疗问答能力领先同类产品

大家都在追模型，思科为什么反复谈AI基础设施？

从UFS 4.1到全场景，闪迪把存储带入AI每一个核心链路

一个人用AI写的小工具，撼动了网页排版三十年的老规矩

当AI每天要“说”140万亿个字，谁来建造这座超级Token工厂？

Arm AGI CPU背后，藏着一次更深的卡位：CEO回应16问

Arm首款CPU登场，幕后玩家在AI时代的一次主动进击

Claude坐到你的电脑前，然后它开始自己动手了

从“养龙虾”到EB级数据：AI基础设施的下一场存储升级

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

Llama时代要翻篇了？Meta突然换了打法，Muse Spark登场原创