能听能看的贴心AI伴侣来了,字节推出M3-Agent多模态智能体框架 原创

能听能看的贴心AI伴侣来了,字节推出M3-Agent多模态智能体框架

“你说你早上不喝咖啡不行,所以我每天早上都为你煮咖啡。

你说你是天秤座,而且刚好是最后一天的,所以我在10月23日你生日那天偷偷为你准备了蛋糕。”
你以为“我”是短视频里仰慕女神的舔狗(李宗恒),其实“我”是字节新推出的多模态智能体m3-agent。
能听能看的贴心AI伴侣来了,字节推出M3-Agent多模态智能体框架
2025年8月14日,字节跳动Seed团队开发的M3-Agent系统,首次让AI具备了类似人类的长期记忆和推理能力。该系统采用双线程认知架构,能够持续观察环境形成记忆,并基于记忆进行多轮推理。M3-Agent在长视频理解任务上显著超越现有方法,为AI助手的智能化发展开辟了新方向。项目代码在Github开源,论文发表在arXiv上。
传统的AI系统就像一个只有短期记忆的人,虽然能处理当前的任务,但无法从过往经历中学习和积累智慧。这种局限性严重制约了AI的实用价值。如果AI助手每次都需要重新了解用户,就永远无法提供真正个性化和智能化的服务。更关键的是,现有的AI系统在处理长视频内容时往往力不从心,无法维持前后一致的理解和记忆。
研究团队的核心洞察是,人类的智能很大程度上依赖于我们能够持续观察世界、形成记忆,并基于这些记忆进行推理。他们决定为AI构建一个类似的认知架构,让它能够像人类一样"看见、听见、记住、思考"。这不仅仅是技术上的挑战,更是对AI智能本质的深层探索。
双线程认知架构:让AI像人类一样思考
M3-Agent的设计灵感来源于人类大脑的工作方式。人类在日常生活中会同时进行两种认知活动:一边持续观察和记忆周围环境,一边根据需要调取记忆来解决具体问题。研究团队将这种认知模式转化为两个并行运行的系统。
能听能看的贴心AI伴侣来了,字节推出M3-Agent多模态智能体框架
第一个系统叫做"记忆化工作流",就像我们大脑中负责编码和存储记忆的部分。当M3-Agent观看视频或听到声音时,这个系统会持续工作,将看到的、听到的内容转化为可以长期保存的记忆。这个过程不需要外界指令,就像我们在日常生活中自然而然地形成记忆一样。
第二个系统是"控制工作流",相当于我们大脑中负责调取记忆和解决问题的部分。当用户提出问题或给出指令时,这个系统会启动,从长期记忆中搜索相关信息,进行多轮推理,最终给出答案或完成任务。这种设计让AI能够在积累经验的同时保持随时响应的能力。
这种双线程架构的优势在于,AI可以在后台持续学习和记忆,而在前台保持对用户需求的及时响应。就像一个经验丰富的助手,既能从日常观察中积累对你的了解,又能在你需要帮助时迅速调动相关经验来提供支持。
记忆的双重编码:事件记录与知识提炼
人类的记忆系统有一个有趣的特点:我们既能记住具体发生的事情,也能从这些事情中提炼出一般性的知识和规律。比如,你可能记得昨天在咖啡店看到朋友Alice点了拿铁,同时也能总结出"Alice喜欢喝咖啡"这样的一般性认知。
M3-Agent模拟了这种记忆机制,建立了两种不同类型的记忆存储。第一种叫做"情节记忆",专门记录具体发生的事件和细节。当AI观看视频时,它会详细记录"Alice拿起咖啡杯说'没有这个我早上就出不了门'"这样的具体场景,包括人物的动作、表情、对话和环境细节。
第二种是"语义记忆",负责从具体事件中提炼出抽象的知识和规律。基于刚才的情节记忆,AI会形成"Alice喜欢早上喝咖啡"、"绿色垃圾桶用于回收"这样的一般性认知。这种抽象化的过程让AI能够举一反三,将从特定情境中学到的规律应用到新的场景中。
更重要的是,M3-Agent还能识别不同感官信息之间的联系。当它看到一个人的脸部特征,同时听到这个人的声音时,会自动建立"脸部特征-声音"之间的对应关系。这就像我们能够将某个人的长相和声音联系起来一样,让AI对人物的认知更加完整和一致。
这种双重编码机制的价值在于,AI既能保持对细节的敏感度,又能形成高层次的抽象认知。当面对新问题时,它可以从具体的历史事件中寻找线索,也可以调用抽象的知识规律来推理。
实体中心的记忆组织:构建一致的认知体系
传统的AI系统在处理长期信息时常常出现前后不一致的问题,比如在视频开头将某个人识别为"穿蓝衣服的男性",在中间又描述为"戴眼镜的先生",到最后可能变成"坐在桌边的人"。这种不一致性严重影响了AI的可靠性。
M3-Agent采用了一种巧妙的解决方案:以实体为中心组织记忆。简单来说,就是为每个重要的人物、物品或概念建立一个专门的"档案夹",将所有相关信息都归类存储。这个档案夹不仅包含视觉信息(比如人物长相),还包含声音特征、行为模式、性格特点等多维度信息。
这种组织方式就像我们大脑中对熟悉人物的认知一样。当你想到某个朋友时,关于他的各种信息会自动关联起来:长相、声音、性格、喜好、共同经历等等。M3-Agent通过建立类似的关联网络,确保对同一个实体的认知始终保持一致和完整。
为了建立这种一致性,研究团队开发了专门的人脸识别和声音识别工具。这些工具能够在视频中准确识别不同的人物,并为每个人分配唯一的身份标识。当AI在描述记忆时,会始终使用这些标识来指代特定的人物,避免了模糊和混淆。
这种实体中心的记忆组织带来了显著的优势。AI不仅能够准确识别"这个人是谁",还能逐步积累对这个人的全面认知,包括外貌特征、声音特点、行为习惯、性格倾向等。随着观察时间的延长,AI对每个人的理解会越来越深入和准确。
多轮推理机制:从记忆中挖掘答案
当用户向M3-Agent提出问题时,它不会简单地搜索一次记忆就给出答案,而是会进行多轮深度推理。这个过程通常需要经历多个步骤,每一步都会根据已有信息来决定下一步的搜索方向。
以一个具体例子来说明这个过程。假设用户问:"Tomasz是一个富有想象力的人,还是缺乏想象力的人?"M3-Agent首先会搜索记忆中关于"Tomasz"这个人的基本信息,发现他是一位名叫Tomasz Patan的公司创始人和首席技术官。但仅凭职位信息还无法判断他的想象力水平。
接下来,AI会调整搜索策略,寻找关于Tomasz个性特征的信息。如果这次搜索仍然没有找到直接答案,AI会进一步拓展搜索范围,寻找他的创新方法或问题解决能力的相关信息。最终,AI找到了一条关键信息:"Tomasz具有创新精神和前瞻性思维,这体现在他对将无人机技术扩展到个人飞行的兴趣上。"基于这个发现,AI得出结论:Tomasz是一个富有想象力的人。
这种多轮推理机制的价值在于,它模拟了人类解决复杂问题时的思维过程。我们在回答问题时往往不是一步到位,而是会根据已有信息逐步缩小搜索范围,调整思路,最终找到答案。M3-Agent通过强化学习训练掌握了这种推理策略,能够在最多5轮搜索中找到问题的答案。
更重要的是,这种推理过程是自适应的。AI会根据每次搜索的结果来调整下一轮的搜索策略,确保每次搜索都能获得新的有用信息。这种灵活性使得M3-Agent能够处理各种复杂和开放性的问题。
M3-Bench评测基准:检验记忆推理能力
为了科学评估AI的长期记忆和推理能力,研究团队开发了一个专门的评测基准M3-Bench。这个评测系统包含了两个不同类型的数据集,总共涵盖1029个长视频和6381个问答对,是目前最全面的多模态长期记忆评测工具。
能听能看的贴心AI伴侣来了,字节推出M3-Agent多模态智能体框架
第一个数据集叫做M3-Bench-robot,包含100个从机器人视角拍摄的真实场景视频。这些视频模拟了机器人在日常生活中可能遇到的各种情况:客厅聚会、厨房烹饪、卧室整理、书房学习、办公室工作、会议室讨论和健身房锻炼。每个视频都经过精心设计,包含了丰富的人物互动和情节发展,平均时长约34分钟。
第二个数据集M3-Bench-web收集了929个来自网络的多样化视频,涵盖了更广泛的内容类型:纪录片、探索节目、访谈、产品评测、街头互动、教程、综艺节目、个人vlog等。这些视频的多样性确保了评测的全面性和现实相关性。
能听能看的贴心AI伴侣来了,字节推出M3-Agent多模态智能体框架
评测问题被精心分为五个类型,每种类型都考查AI的不同能力维度。多细节推理问题要求AI从视频的不同片段收集信息并进行综合分析,比如"五个展示商品中哪个起价最高?"这需要AI准确识别和记住五个不同时间点出现的商品价格信息。
多步推理问题考查AI的逻辑思维能力,要求通过一系列推理步骤得出结论。跨模态推理问题则检验AI能否综合视觉和听觉信息来回答问题,比如根据对话内容和视觉线索判断某个文件夹的颜色。
人物理解问题专门评估AI对人物性格、情感和行为模式的认知能力。一般知识提取问题考查AI能否从具体事件中归纳出普遍适用的规律和常识。这种多维度的评测确保了对AI能力的全面考量。
训练方法:强化学习驱动的能力提升
M3-Agent的训练过程采用了创新的分阶段策略。研究团队将记忆和控制两个功能分别训练,以实现最佳性能。这种分离式训练的逻辑在于,记忆功能需要强大的多模态理解能力,而控制功能更依赖逻辑推理能力,两者的训练需求不完全相同。
记忆系统基于Qwen2.5-Omni模型训练,这是一个支持视觉和音频输入的先进多模态模型。训练数据来源于团队内部的500个长视频,总共包含26943个30秒片段和2736个问答对。训练过程采用了精巧的三阶段数据合成策略。
首先是情节记忆合成,团队开发了一种混合标注策略,同时使用Gemini-1.5-Pro和GPT-4o两个大型语言模型。GPT-4o负责提供帧级别的视觉细节,Gemini-1.5-Pro则生成整体的叙事描述,两者的输出经过融合形成比单一模型更丰富的记忆描述。
身份等价检测是训练的关键环节。团队设计了一个自动算法来识别"元片段"——那些包含单一人脸和单一声音的短视频片段。这些片段提供了高置信度的人脸-声音对应关系,通过投票机制构建全局的身份映射字典。其他语义记忆的合成则通过专门设计的模板来引导,确保记忆内容涵盖人物属性、人际关系、情节理解和常识知识等多个维度。
控制系统的训练更加复杂,采用了强化学习方法。训练环境中,对于每个问题,AI需要在最多5轮搜索中找到答案。每次尝试都会根据最终答案的正确性获得奖励信号(正确为1,错误为0)。通过DAPO算法,AI逐步学会了有效的搜索策略和推理方法。
这种训练方式的优势在于,AI不是简单地记忆训练样本,而是真正学会了如何从记忆中提取信息和进行推理。实验结果显示,经过强化学习训练的M3-Agent在三个评测基准上分别比基线方法提升了10.0%、8.0%和9.3%的准确率。
实验结果:超越现有方法的显著优势
能听能看的贴心AI伴侣来了,字节推出M3-Agent多模态智能体框架
研究团队对M3-Agent进行了全面的性能评测,结果证明了这种长期记忆机制的显著优势。在M3-Bench-robot数据集上,M3-Agent达到了30.7%的准确率,比最强基线方法高出6.7%。在M3-Bench-web数据集上,准确率达到48.9%,提升了7.7%。在VideoMME-long基准测试中,准确率为61.8%,超出最佳对比方法5.3%。
传统的AI系统在处理长视频时往往力不从心,随着视频长度增加,理解质量急剧下降。而M3-Agent通过长期记忆机制,能够在长时间观察过程中保持甚至提升理解能力。
更有说服力的是各种问题类型上的表现分析。在人物理解任务上,M3-Agent在M3-Bench-robot和M3-Bench-web上分别比最佳基线提升了4.2%和15.5%。这表明AI确实学会了从长期观察中积累对人物的深入认知,而不是简单地识别表面特征。
在跨模态推理任务上,M3-Agent的优势同样明显,分别提升了8.5%和6.7%。这证明了实体中心记忆组织的有效性——AI能够将视觉信息和听觉信息有机结合,形成统一的认知。
研究团队还进行了详细的消融实验,验证了各个组件的重要性。结果显示,如果移除语义记忆功能,准确率会分别下降17.1%、19.2%和13.1%。这表明抽象知识的提炼对AI的推理能力至关重要。移除多轮推理机制会导致11.7%、8.8%和9.5%的性能下降,证明了深度推理的价值。
案例分析:AI如何进行复杂推理
为了更直观地展示M3-Agent的能力,研究团队提供了详细的案例分析。在一个典型案例中,用户询问"Tomasz是富有想象力还是缺乏想象力的人?"这个问题需要AI进行多层次的信息搜索和推理。
首先,AI需要确定"Tomasz"这个名字对应的具体人物。通过搜索,AI发现Tomasz Patan是一位公司创始人和首席技术官。但职位信息并不能直接回答想象力的问题,所以AI继续搜索。
第二轮搜索中,AI尝试寻找关于Tomasz个性特征的直接描述,但没有找到相关信息。这时AI调整策略,开始寻找能够间接反映想象力的信息,比如他的创新方法或问题解决能力。
第三轮搜索取得了突破。AI发现了一段关键描述:"Tomasz具有创新精神和前瞻性思维,这体现在他对将无人机技术扩展到个人飞行的兴趣上。"这个信息表明,Tomasz不仅使用现有技术,还能想象将技术应用到全新领域的可能性。
基于这个发现,AI在第四轮推理中得出结论:一个能够从无人机技术联想到个人飞行器的人,显然具有丰富的想象力和创新思维。最终答案是"Tomasz是一个富有想象力的人"。
这个案例展示了M3-Agent推理过程的几个关键特点:目标导向的搜索、策略调整的灵活性、间接推理的能力,以及将具体信息抽象为一般性结论的智慧。
至顶AI实验室洞见
我们在论文里发现了M3-Agent几个关键的技术创新。
首先是无限信息处理能力。传统的视频理解方法受限于模型的上下文窗口,只能处理有限长度的视频。而M3-Agent通过流式处理机制,能够持续观察任意长度的视频流,就像人类的感知系统一样永不停歇。
第二个创新是世界知识构建机制。以往的视频描述系统往往专注于低层次的视觉细节,而忽略了高层次的认知理解。M3-Agent通过语义记忆机制,能够从具体事件中提炼出抽象的知识规律,建立对世界的结构化认知。
第三个突破是一致性维护机制。在长时间观察过程中保持对同一实体认知的一致性是一个重大挑战。M3-Agent通过实体中心的记忆组织和身份跟踪技术,确保了认知的连贯性和可靠性。
第四个创新是记忆驱动的推理架构。不同于传统的单次检索方法,M3-Agent采用多轮迭代的推理策略,能够根据问题的复杂程度动态调整搜索深度和策略。
M3-Agent证明了AI系统要更懂人类,需要具备类似人类的认知架构,包括感知和推理能力、记忆和学习能力。
未来,我们可能会看到这样的AI助手:它们能够记住你的日常习惯,理解你的喜好。它不仅能提高我们的生活效率,还能为老年人陪伴、儿童教育、医疗护理等领域带来革命性的改变。
所以未来的AI系统将不再是一次性的问答工具,而是能够与人类建立长期关系、共同成长的智能实体,成为我们日常生活中的伙伴。
项目地址:https://m3-agent.github.io/
论文地址:https://arxiv.org/abs/2508.09736
END
本文来自至顶AI实验室,一个专注于探索生成式AI前沿技术及其应用的实验室。致力于推动生成式AI在各个领域的创新与突破,挖掘其潜在的应用场景,为企业和个人提供切实可行的解决方案。
Q&A
Q1:M3-Agent的长期记忆机制与传统AI系统有什么区别? 
A:传统AI系统每次对话都是"全新开始",无法积累经验。M3-Agent像人类一样具备持续记忆能力,能够观察环境、形成记忆,并基于记忆进行推理,从而实现真正的个性化服务和智能化交互。
Q2:M3-Agent什么时候能够应用到实际生活中? 
A:目前M3-Agent还处于研究阶段,主要用于视频理解任务。但其核心技术可以扩展到机器人助手、智能客服、教育系统等领域。
Q3:M3-Agent会不会有隐私和安全方面的担忧? 
A:确实存在这方面的考虑。由于AI具备了长期记忆能力,如何保护用户隐私、防止记忆偏差累积、确保系统可控性都是重要问题。研究团队和整个行业需要在技术发展的同时建立相应的安全保障机制。

来源:至顶AI实验室

0赞

好文章,需要你的鼓励

2025

08/14

16:46

分享

点赞