上交联手阿里团队打造"AI记忆管家"ReMe,像人类一样从经验中学习 原创

上交联手阿里团队打造"AI记忆管家"ReMe,像人类一样从经验中学习

你有没有注意到,人类学习新技能的方式其实挺有意思的?比如第一次学骑自行车,摔了几次之后,你的身体就会"记住"该怎么保持平衡。下次再骑,你不会再犯同样的错误。这种从经验中学习的能力,对人类来说稀松平常,但对人工智能来说,却一直是个巨大的挑战。

2025年12月,上海交通大学与阿里巴巴通义实验室联手,开发了一套名为ReMe的框架,让人工智能真正学会了"吃一堑长一智"。这个名字来源于"Remember Me, Refine Me"(中文:"记住我,优化我"),非常形象地描述了这套系统核心功能。

想象一下,如果你的私人助理每天帮你处理各种事务,但每次都像第一天上班一样,完全忘记之前的教训和经验,那该有多让人抓狂?不幸的是,目前大多数AI助手就是这样工作的。它们可能会一次又一次地犯同样的错误,因为它们没有一套有效的"经验管理系统"。ReMe的出现,正是为了改变这种状况。

当AI助手变成"金鱼":为什么现有的记忆系统不够用

要理解ReMe的价值,我们需要先了解现有AI记忆系统的问题。

目前的AI记忆方案,研究者们形象地称之为"被动堆积"模式。什么意思呢?想象你有一个巨大的储物间,每次完成一项工作后,你就把所有相关的文件、便签、草稿统统扔进去。时间一长,储物间里堆满了各种材料,但当你需要找某个特定信息时,要么找不到,要么找出来的东西根本不适用于当前的情况。

现有的AI记忆系统大致分为两类。第一类是"全文记录派",它们会把AI完成任务的整个过程原封不动地存下来。这就像把你学做一道菜的全过程录成两小时的视频存档。当你下次想快速参考某个技巧时,你得从头到尾看完整个视频,而其中大部分内容可能跟你现在的问题毫无关系。第二类是"总结流程派",它们会把整个任务过程压缩成一个概要性的工作流程。这有点像把那个两小时的烹饪视频压缩成一张菜谱卡片,信息是精简了,但可能丢失了很多关键的细节和技巧。

这两种方法都有明显的缺陷。前者信息量太大、太粗糙,后者又太笼统、缺乏灵活性。更关键的是,它们都是"死"的,存进去是什么样,取出来还是什么样,不会根据新情况做调整,也不会随着时间推移而优化。随着时间的推移,这个经验库会逐渐变成一个混杂着有用建议和过时信息的大杂烩,就像一本从不更新的老旧百科全书。

研究团队指出,一套理想的AI记忆系统应该满足三个关键标准。首先是"高质量提取",系统需要从杂乱的执行过程中提炼出真正有价值、可复用的知识,而不是简单地存储原始数据。其次是"任务适配应用",当AI面对新任务时,从记忆中调取的经验应该能够动态适应当前任务的具体需求,而不是生搬硬套。最后是"持续优化",经验库需要保持活力,好的经验要强化,过时的经验要清理,这样才能防止系统随时间退化。

简单来说,研究者们想要打造的,不是一个静态的档案柜,而是一个会自我学习、自我优化的"活"的知识管理系统。

ReMe的核心秘密:像厨师一样管理经验

ReMe框架的工作方式,可以用一个餐厅厨师管理食谱的比喻来理解。想象一位经验丰富的厨师,他不仅会记录成功的菜品做法,还会分析失败的尝试,更会根据不同食客的口味调整烹饪方法,并且定期清理那些已经过时的老菜谱。ReMe就是这样一套"厨房管理系统"。

上交联手阿里团队打造

整个框架由三个相互配合的阶段组成,研究者们将其称为经验获取、经验复用和经验优化。这三个阶段形成了一个完整的循环,让AI能够持续地从过往任务中学习和成长。

首先来看经验获取阶段。这一阶段的核心任务是从AI执行任务的过程中提取有价值的知识。但ReMe的特别之处在于,它不是简单地做笔记,而是采用了研究者所称的"多维度蒸馏策略"。

什么是多维度蒸馏呢?继续用厨师的比喻。假设你今天做了一道红烧肉,结果非常成功。普通的记录方式可能就是把整个烹饪过程写下来。但一位经验丰富的厨师会做得更细致。他会分析成功的关键,是火候的控制?是调料的比例?还是食材的处理方式?这种对成功要素的深入分析,就是ReMe中的"成功模式识别"。

同样重要的是失败的分析。如果那道红烧肉做砸了,厨师不会简单地说"这次失败了"就完事。他会仔细思考:是哪一步出了问题?是最开始的焯水时间太短,还是后面收汁的时候火太大?这种对失败原因的追溯,就是ReMe中的"失败分析"功能。

更妙的是第三种分析方式,比较分析。当厨师同时做了两道红烧肉,一道成功一道失败时,他会把两个过程放在一起对比,找出导致不同结果的关键差异。也许两道菜的唯一区别就是糖的添加时机不同,这个发现比单独分析任何一道菜都更有价值。在ReMe中,这种通过对比成功和失败案例来提取洞见的方法,正是让经验更加精准有效的秘密武器。

提取出这些经验后,系统还会进行质量把关。就像出版社的编辑会审核稿件质量一样,ReMe会用AI评估机制来判断每条经验是否准确、可行、有价值。那些模糊不清或者可能误导的经验会被筛除。此外,为了避免经验库变得臃肿,系统还会进行去重处理,把意思相近的经验合并,保持库的精简高效。

每条通过验证的经验都会被组织成结构化的格式存储,包含"什么时候用"的使用场景描述、经验的核心内容、相关关键词、可信度评分以及涉及的工具列表。这种结构化的存储方式为后续的精准检索打下了基础。

让老经验焕发新生:ReMe的智能复用机制

有了丰富的经验库只是第一步,如何在面对新任务时找到最合适的经验并有效应用,才是真正的挑战。这就像厨师面对一位新顾客的点单时,需要从自己积累的所有技巧中找出最适合的那些。

ReMe在经验复用阶段设计了一套完整的流程。当AI收到一个新任务时,首先要做的是在经验库中搜索相关的记录。这里有个讲究的地方:用什么作为搜索的"关键词"?研究团队测试了多种方案,包括直接用任务描述搜索、用从任务中提取的关键词搜索、用概括化的任务表述搜索,以及用预先生成的"使用场景"描述搜索。

结果发现,用"使用场景"描述来建立索引的效果最好。为什么呢?想象你在一个巨大的菜谱库里找资料。如果你搜索"红烧肉",可能会漏掉一些相关但菜名不同的技巧,比如"如何让肉类更入味"。但如果菜谱是按"使用场景"来组织的,比如"当顾客要求肉质软烂且入味时",你就能找到所有相关的技巧,不论它们原本是用在什么菜品上。这种场景导向的索引方式能够捕捉任务的本质需求,而不仅仅是表面的描述。

找到相关经验后,系统还会进行二次筛选。这就像厨师先从书架上拿下几本可能有用的菜谱,然后再仔细翻阅,挑出真正适用的那几页。ReMe使用了一个重排序模块,根据当前任务的具体情况对检索到的经验进行精细化评估,确保最终呈现给AI的是最相关、最有帮助的内容。

更精彩的是接下来的改写步骤。假设你找到了一个关于"如何让红烧肉入味"的经验,但你现在要做的是红烧鱼。这两道菜有相似之处,但也有明显的不同。一个聪明的厨师不会生搬硬套红烧肉的方法,而是会根据鱼的特点做出调整。ReMe的改写模块正是完成这个工作。它会把从经验库中检索到的多条原始经验重新组织,转化为针对当前任务量身定制的指导建议,让历史智慧真正服务于眼前的问题。

上交联手阿里团队打造

研究者在论文中给出了一个生动的例子。在一个模拟的股票交易场景中,用户要求AI购买某只股票,但只说了"按当前市价",没有给出具体价格。没有经验指导的AI可能会凭空编造一个价格,导致错误。配备了ReMe的AI则会参考之前学到的经验,当用户要求按市价交易但没给具体价格时,正确的做法是先调用获取实时股价的工具,然后再用获取到的真实价格下单。这个例子清楚地展示了经验如何帮助AI避免重蹈覆辙。

与时俱进的记忆:自动清理过时经验

到目前为止,我们介绍的系统已经相当强大了。但研究团队并没有止步于此。他们深刻认识到,一个静态的经验库终究会过时。就像一本十年前出版的投资指南,即使当初写得再好,放到今天很多建议可能已经不合适了。

ReMe的第三个核心组件是经验优化机制,它确保经验库始终保持活力和时效性。这个机制包含两个主要功能:智慧地添加新经验和果断地清理旧经验。

关于添加新经验,研究团队对比了两种策略。第一种是"来者不拒",把AI执行的所有任务结果都转化为经验存储起来,不管成功还是失败。第二种是"择优录取",只有成功完成的任务才会被提取经验并存入库中。

实验结果显示,"择优录取"的效果明显更好。这听起来可能有些反直觉,毕竟不是说失败是成功之母吗?研究者解释了其中的道理。在构建初始经验库时,可以收集大量的任务尝试,把成功和失败的案例放在一起对比分析,从中提取出有价值的教训。但在日常运行中,单独一次失败的尝试往往没有足够的上下文来准确分析失败原因。如果强行从中总结经验,可能得出错误的结论,反而会污染经验库。相比之下,成功的任务执行总是能提供可靠、可操作的参考价值。

但研究团队并没有完全放弃从失败中学习。他们设计了一个巧妙的"失败感知反思"机制。当AI在执行新任务时失败了,系统不会立即从这次失败中总结经验,而是会分析这次失败,然后鼓励AI尝试一种不同的方法。如果新方法成功了,那么导致成功的那些改进点就会被记录下来;如果还是失败,就简单地放弃,不让不可靠的信息进入经验库。这种机制既保留了从失败中学习的机会,又避免了低质量经验的引入。为了防止AI在某些本质上无法完成的任务上无限循环,系统设置了最多三次反思尝试的限制。

清理旧经验的机制同样精心设计。系统会持续追踪每条经验的"使用记录",它被调用了多少次,以及在被调用后是否真的帮助AI成功完成了任务。如果某条经验被频繁调用,但使用它的任务成功率却很低,这说明这条经验可能已经过时或者一开始就有问题。在达到一定的调用次数阈值后,如果经验的有效率低于设定的标准,系统就会将其从库中移除。

用生活中的例子来说,这就像你的通讯录管理。如果你发现某个联系人你经常尝试联系,但每次都联系不上或者联系上了也没什么帮助,最终你可能会把这个号码从常用联系人中删除。ReMe对经验的管理遵循同样的逻辑。

真刀真枪的检验:实验结果说话

再好的理论也需要实验来验证。研究团队在两个业界认可的基准测试上对ReMe进行了全面评估,一个是BFCL-V3,专门测试AI的函数调用和工具使用能力;另一个是AppWorld,模拟了包含九款日常应用的真实世界场景,比如邮件、音乐播放器、支付软件等。

作为对照组,研究者选择了三种方案:完全不使用记忆系统的原始AI模型、LangChain公司开发的LangMem长期记忆模块,以及另一套名为A-Mem的智能记忆系统。所有方案都使用阿里巴巴的Qwen3系列模型作为基础AI引擎,测试了8B、14B和32B三种不同规模的版本。

上交联手阿里团队打造

在所有测试场景中,配备ReMe的AI都取得了最高的任务成功率,而且这种优势在不同模型规模和不同测试基准上都保持一致。具体来看,以Qwen3-8B这个较小规模的模型为例,使用ReMe动态版本后,平均任务成功率比没有记忆系统的基础版本提升了约7到9个百分点。这是一个相当显著的进步。

更有趣的发现是所谓的"记忆换规模"现象。配备ReMe的8B小模型,表现竟然超过了没有记忆系统的14B大模型。同样,配备ReMe的14B模型也胜过了裸奔的32B模型。这意味着什么?意味着一套好的经验管理系统可以在很大程度上弥补模型本身规模的不足。对于实际应用来说,这是个巨大的好消息,你不一定需要用最大最贵的模型,只要配上聪明的记忆系统,小模型也能发挥出大能量。

研究团队还进行了细致的消融实验,逐一检验框架中各个组件的贡献。结果显示,细粒度的关键点级别经验提取明显优于粗粒度的轨迹级别提取,验证了精细化知识管理的价值。择优录取的新经验添加策略优于来者不拒的策略,证明了经验质量比数量更重要。失败感知反思机制进一步提升了性能,说明在适当的框架下从失败中学习确实有效。而基于使用效果的经验清理机制也贡献了可观的性能增益,确认了保持经验库活力的必要性。

在检索经验数量的实验中,研究者发现存在一个最优点。随着检索数量从零增加,性能稳步提升,但超过一定阈值后反而会下降。这很好理解,太多的参考信息可能会干扰AI的决策,就像你在做一道菜时同时参考太多食谱反而会无所适从。最终,研究团队选择每次检索五条经验作为默认设置,在信息丰富性和聚焦度之间取得了平衡。

错误分析:ReMe帮AI规避了哪些坑

为了更深入地理解ReMe的效果,研究者对8B模型在BFCL-V3基准上的错误案例进行了详细分析。这种分析方法就像检查一位学生的错题本,看看哪些类型的错误减少了,哪些还需要改进。

上交联手阿里团队打造

结果显示,没有记忆系统时,8B模型总共在62个任务上失败。配备ReMe后,这个数字下降到了47个。更有意思的是失败案例的具体分布。研究者发现,ReMe成功纠正了17个原本失败的案例,同时只新增了2个之前成功但现在失败的案例。这说明ReMe整体上是在帮助AI变得更好,而不是简单地做了个"零和交换"。

从错误类型来看,减少最明显的是"推理错误",从22个降到了14个。这表明历史经验有效地增强了AI的多步推理能力,帮助它避免在复杂任务中一步错步步错的连锁失败。"动作遗漏"类错误也有明显减少,说明经验帮助AI更好地识别多轮任务中可能被忽视的步骤,尤其是那些需要按顺序调用工具或跟踪状态的环节。

这些分析结果从另一个角度印证了ReMe的价值,它不仅在整体数字上提升了性能,而且是以合理的方式做到的,针对AI真正薄弱的环节提供了有效的补强。

更强的"总结者"带来更好的经验

研究团队还探索了一个有趣的问题:用于提取和总结经验的AI模型,其能力高低会如何影响最终效果?在主要实验中,负责总结经验的模型和执行任务的模型是同一个,这意味着AI在进行"自我学习"。但如果用更强大的模型来做经验总结呢?

实验结果证实了一个直觉的猜想:更强的"总结者"确实能产生更好的经验。当让8B模型执行任务,但用14B甚至32B模型来总结经验时,任务成功率会进一步提升。用32B模型做总结比用8B模型自己总结,带来了额外3个多百分点的性能提升。

这个发现有重要的实际意义。它暗示了一种高效的部署策略:日常任务可以用较小、成本更低的模型来执行,但可以周期性地调用更强大的模型来分析执行日志、提取经验。这种分工既控制了成本,又保证了经验库的质量。

至顶AI实验室洞见

ReMe代表了AI记忆系统的一次重要进化。它把AI的经验库从一个落满灰尘的档案室,变成了一个活跃的学习中心。通过精细化的经验提取、智能化的经验应用和动态化的经验维护,ReMe让AI真正具备了"吃一堑长一智"的能力。

未来的AI助手会变得越来越靠谱。它们不会再一次又一次地犯同样的错误,而是会像一个勤奋好学的新员工一样,快速积累经验,变得越来越得心应手。更令人期待的是,ReMe展示的"记忆换规模"效果意味着,高质量的AI服务不一定需要昂贵的超大模型支撑,精心设计的经验管理系统可以让小而美的模型同样表现出色。

研究团队已经开源了他们的代码和构建的经验数据集。这项工作为AI的"终身学习"开辟了一条新路径,让我们看到了一个AI能够持续成长、不断进化的未来。未来,AI助手能像真人一样,从每一次互动中学习,变得越来越懂你、越来越好用。

论文地址:https://arxiv.org/abs/2512.10696v1

项目地址:https://github.com/agentscope-ai/ReMe

END
本文来自至顶AI实验室,一个专注于探索生成式AI前沿技术及其应用的实验室。致力于推动生成式AI在各个领域的创新与突破,挖掘其潜在的应用场景,为企业和个人提供切实可行的解决方案。

 

Q&A

Q1:ReMe和普通的AI记忆系统有什么区别?

A:普通的AI记忆系统就像一个简单的档案柜,把所有经历原封不动地存起来。而ReMe更像一位善于总结的学习者,它会从成功和失败中提炼关键经验,根据新任务的需求灵活调整运用方式,还会定期清理那些已经过时或效果不好的旧经验。

Q2:小模型配上ReMe真的能比大模型表现更好吗?

A:是的,实验数据显示,配备ReMe的8B参数模型在任务成功率上超过了没有记忆系统的14B模型。这意味着好的经验管理可以在一定程度上弥补模型规模的差距,对于追求性价比的实际应用来说是个好消息。

Q3:ReMe如何避免学到错误的经验?

A:ReMe采用多重保险机制。首先,它只从成功的任务中直接提取经验;其次,所有经验都要经过AI评估验证其可行性和准确性;最后,系统会持续追踪每条经验的实际使用效果,把那些频繁被调用却效果不佳的经验自动清理掉。

来源:至顶AI实验室

0赞

好文章,需要你的鼓励

2025

12/15

15:08

分享

点赞