Llama时代要翻篇了?Meta突然换了打法,Muse Spark登场 原创

Meta 悄悄放弃了 Llama?一个叫 Muse Spark 的新 AI 横空出世,背后藏着一场惊天大翻身。

2025 年,Meta 的 AI 旗舰产品 Llama 4 发布后口碑惨淡,外界甚至揭出它在测评中用了“开小灶”的特训版本,和普通用户实际体验到的根本不是同一个东西。这对马克·扎克伯格来说是个不小的打击,于是他做了一个罕见的决定:彻底推翻重来。

2025 年 6 月,Meta 斥资 143 亿美元挖来了数据标注公司 Scale AI 的联合创始人、年仅 29 岁的汪滔,任命他为公司史上第一位首席 AI 官,并组建了全新的精英部门——Meta 超级智能实验室(Meta Superintelligence Labs,MSL)。九个月后,这场豪赌终于亮出底牌:2026 年 4 月,Muse Spark 正式发布,内部代号曾叫“牛油果”,是 MSL 诞生以来的第一款模型,也是 Meta 有史以来第一款完全闭源的专有 AI 产品。

彻底重建,而非修修补补

Muse Spark 不是在 Llama 的基础上打个补丁,而是从零开始搭建了一套全新的体系——新的预训练架构、新的数据处理流程、全新的强化学习训练方法。MSL 内部流行一句口号:“做出演示,而不是写备忘录”,意思是别光开会讨论,拿出真正能跑的东西来说话。

这款模型最核心的特点是“原生多模态”——它从设计之初就把看图和推理融为一体,而不是把两个功能拼凑在一起。以前的 AI 理解图像和理解文字是两套独立系统,好比用胶水把两个机器人粘在一起,能用,但总显得笨拙。Muse Spark 则实现了真正的“视觉思维链”:你拍下一台咖啡机让它帮你操作,它能看图识别型号并逐步指导;你拍下自己做瑜伽的姿势,它能对比标准动作指出问题所在。

除了“会看”,它还有一个全新的“深思模式”(Contemplating mode)。遇到复杂问题时,它不是让一个 AI 独自冥想更长时间,而是派出多个“子 AI 助手”同时并行工作,各自从不同角度切入,最后综合结论。好比一道难题,与其让一个人闷头想三小时,不如叫来三个人各想一小时再碰头讨论——速度和质量都能提升。

“思维压缩”,用更少的算力做更多的事

Muse Spark 最令人印象深刻的,是它惊人的计算效率。

Meta 训练这款模型时引入了一个叫“思维压缩”(thought compression)的技术。通俗来说,就是在训练过程中给模型立规矩:你每多用一个推理步骤,就要被扣分。久而久之,模型学会了用更精炼的思路解决同样的问题,就像一个话多的人被反复提醒“说重点”,最终练就了言简意赅的本事。

效果非常显著。在第三方机构 Artificial Analysis 的标准测试中,Muse Spark 完成整套题目所用的“推理步骤”大约是 5800 万个,而 Claude Opus 4.6 用了约 1.57 亿个,GPT-5.4 用了约 1.2 亿个。换句话说,Muse Spark 用不到竞争对手一半的“脑力消耗”,就达到了相近乃至更好的结果。Meta 官方数据还显示,Muse Spark 达到与上一代旗舰 Llama 4 Maverick 相当的能力,所需计算量却不到后者的十分之一。

全球第四,视觉理解领跑

在第三方 AI 综合评分榜单“智能指数”上,Muse Spark 拿到 52 分,位列全球第四,仅次于 Gemini 3.1 Pro Preview(57 分)、GPT-5.4(57 分)和 Claude Opus 4.6(53 分)。而 Meta 上一代的 Llama 4 Maverick 在同一榜单只有 18 分——Muse Spark 几乎是它的三倍。

Llama时代要翻篇了?Meta突然换了打法,Muse Spark登场

在视觉理解这个细分赛道,Muse Spark 表现尤为突出。一项专门考验 AI 理解复杂图表和数字逻辑的测试 CharXiv Reasoning 中,它拿到 86.4 分,明显领先于 Claude Opus 4.6 的 65.3 分、谷歌 Gemini 3.1 Pro 的 80.2 分和 GPT-5.4 的 82.8 分。综合视觉理解测试 MMMU Pro 中,它以 80.4 分位居全球第二。

Llama时代要翻篇了?Meta突然换了打法,Muse Spark登场

当然,Meta 自己也坦承了短板:代码编写和长周期自主任务这两个领域,Muse Spark 与头部产品之间仍有明显差距。这恰恰是企业客户最感兴趣的场景,也是接下来需要重点补课的方向。

谁能用?用在哪里?

Muse Spark 目前已上线 Meta AI 独立应用和 meta.ai 网站,免费使用,未来几周将陆续进入 Facebook、Instagram、WhatsApp、Messenger 以及 Meta 的 Ray-Ban AI 智能眼镜。

Meta 专门为它设计了几个差异化场景。购物模式结合了平台上海量创作者内容和用户个人兴趣标签,能给出真正贴近你偏好的推荐——这是 OpenAI 或谷歌这类没有社交图谱数据的对手很难复制的能力。健康查询场景下,你拍下超市货架上的零食,它能分析营养成分,结合你的饮食目标给出建议。深思模式则适合处理法律文件解读、学术论文分析等需要多步推理的复杂任务。

此外,Meta 计划未来通过 API 向合作方开放 Muse Spark,目前处于私有预览阶段,尚未公开定价。这意味着它不只是自家 APP 的内部引擎,还在尝试成为一个对外商业化的平台产品。

从开源英雄到闭源挑战者

Muse Spark 最大的争议不在技术,而在策略转向:彻底闭源。

曾经,Meta 的 Llama 系列是全球开发者的福音——任何人都可以免费下载、修改、部署,有数据显示这比购买 OpenAI 等付费 API 节省高达 88% 的成本。这套开源哲学让 Meta 赢得了大量好感,也孵化了庞大的开发者生态。

但 Muse Spark 把这扇门关上了。Meta 表示“希望未来开源部分版本”,但目前外部开发者无法自行部署,只能通过 Meta 平台或未来开放的 API 接入。背后的商业逻辑直白:Meta 在 AI 上花了太多钱,2026 年资本支出计划高达 1150 亿至 1350 亿美元,迫切需要找到变现路径。发布当天,Meta 股价涨超 9%,收盘上涨 6%,说明市场对这个转向是认可的。

Muse Spark 证明了 Meta 有能力重新站回全球顶级 AI 的队列,但离真正定义下一代 AI 还有距离,是一次扎实的回归。不过这只是 Muse 系列的第一款,更大规模的后续版本已经在路上。扎克伯格说,Muse Spark 是迈向“个人超级智能”的起点——一个真正了解你、帮你购物、健身、看病单、规划旅行的 AI。这个愿景能不能实现,就看接下来几步了。

END
本文来自至顶AI实验室,一个专注于对AI计算机、工作站及各类AI相关硬件设备,开展基于真实使用场景评测的研究机构。‍

来源:至顶AI实验室

0赞

好文章,需要你的鼓励

2026

04/10

15:40

分享

点赞

邮件订阅