想象这样一个超级助手,不仅能帮你订机票、查资料、写代码,还能在遇到新问题时自己学会使用新工具,就像一个真正聪明的人类助手一样。
2025年10月24日,小红书和中国人民大学的研究团队开源DeepAgent系统,标志着小红书正式下场AI Agent赛道。
传统的AI助手就像按照固定食谱做菜的厨师,只能严格按照既定步骤操作。如果食谱上没写,它就不知道该怎么办。而DeepAgent就像一个经验丰富的大厨,能根据实际情况灵活调整,甚至自己去找新的调料和工具。这项研究的突破性进展在于,DeepAgent能够在一个连续的思考过程中,自主决定需要什么工具、主动去寻找和使用这些工具,还能管理自己的"记忆",避免被海量信息淹没。
研究团队在八个不同的测试场景中验证了DeepAgent的能力,这些场景涵盖了从使用上万个不同工具到完成复杂的购物、游戏等任务。实验结果显示,DeepAgent的表现大幅超越了现有的各种AI助手系统,特别是在需要动态发现和使用大量工具的开放场景中,优势更加明显。这项研究为打造更加通用、更加智能的AI助手迈出了重要一步,让我们距离拥有真正像人类一样工作的AI助手又近了一大步。
AI助手的困境:为什么现有方案像在走迷宫
要理解DeepAgent的创新,我们得先看看现在的AI助手有什么问题。假设你在一个巨大的图书馆里找书,现在的AI助手就像一个只会按照预定路线走的机器人。它会严格按照"先去A区查目录,再去B区找书架,然后去C区取书"这样的固定流程。这种方式在简单任务中还行,但遇到复杂情况就麻烦了。

比如说,你想组织一个电影节,需要在Vimeo上找纪录片、找电影圈的嘉宾、还要获取YouTube视频链接。传统的AI助手会这样工作:首先,它要你提前告诉它需要用哪些工具,就像你出门前必须把一天要用的所有东西都装进背包一样。然后它会一步步按照预设的计划执行:第一步搜索,第二步筛选,第三步整理结果。这个过程看起来很有条理,但问题是,真实世界的任务往往不会按照预想的那样发展。
就拿最常见的ReAct方法来说,它的工作方式是"思考-行动-观察"的循环。就像一个小学生做算术题,每做一步都要停下来想一想,然后再做下一步。这种方式在处理简单问题时还可以,但当任务变得复杂,需要调用很多不同工具、处理大量信息时,这种一步步的方式就显得笨拙了。更关键的是,这些传统方法缺乏全局视野,它们只关注当前这一步该做什么,却不能站在更高的角度思考整个任务应该如何完成。
另一个大问题是工具的使用。现在有些AI助手确实能使用工具,比如OpenAI的o1模型可以上网搜索、浏览网页、写代码。但这些工具都是事先定好的,就像给它配备了一个固定的工具箱。如果遇到新问题需要新工具,它就傻眼了。想象一下,如果你的私人助手只会用你给他的那几个工具,遇到新情况不懂得自己去找合适的工具来解决,这样的助手能有多大用处呢?
最后还有个致命问题:记忆管理。随着AI助手执行的任务越来越复杂,它需要记住的信息也越来越多。就像你读一本很长的侦探小说,如果不做笔记总结,到最后可能连前面的线索都忘光了。现有的AI助手在处理长时间、多步骤的任务时,要么被海量的历史信息拖慢速度,要么在信息堆积中迷失方向,找不到重点。这就像一个管家的办公桌上堆满了各种便签纸,最后连自己都搞不清哪些是重要的,哪些是可以扔掉的。
正是因为这些问题,研究团队才决定开发DeepAgent,让AI助手真正像人一样工作。
DeepAgent的魔法:在一次完整思考中搞定所有事

DeepAgent的核心创新可以用一个简单的对比来理解。传统AI助手像是一个需要不断问你"接下来我该干什么"的新手员工,而DeepAgent更像是一个经验丰富的项目经理,给他一个目标,他就能自己规划、自己找资源、自己执行,全程只需要在最后向你汇报结果。
这种工作方式最大的不同在于,DeepAgent把所有的思考、工具发现和行动执行都融合在一个连续的推理过程中。就像一个真人在处理复杂任务时的思维方式:他不会机械地分成"现在是思考阶段"、"现在是行动阶段",而是边思考边行动,思考和行动自然地交织在一起。
具体来说,当你给DeepAgent一个任务,比如"帮我找到最适合学习编程的在线课程",它会这样工作。首先,它开始思考这个问题,就像你自己思考一样:"要找编程课程,我需要知道哪些平台有课程数据,还要能够比较不同课程的质量。"然后,它会主动搜索可用的工具,就像你会想"我应该去哪个网站查"一样。找到合适的工具后,它立即使用这个工具获取信息,比如调用Udemy的API搜索课程。拿到结果后,它继续在同一个思考流程中分析这些信息,决定是否需要使用其他工具做进一步调查,比如去Reddit搜索用户评价。
这整个过程就像你做一道复杂的菜。你不会严格按照"第一步思考5分钟,第二步切菜10分钟,第三步再思考5分钟"这样的机械流程,而是边做边想:切菜的时候想着待会儿火候该怎么控制,炒菜的时候根据实际情况决定要不要加料,全程是一个自然流畅的过程。DeepAgent就是这样工作的,它的思考和行动浑然一体,不被人为的流程限制。
更妙的是,DeepAgent在寻找工具时采用的是"按需检索"策略。它不要求你事先准备好所有工具,而是在需要的时候自己去找。研究团队给它配备了一个强大的工具搜索系统,就像给它装上了一个智能搜索引擎。当它意识到"我需要一个能查询电影信息的工具"时,它会用自然语言描述这个需求,系统就会从成千上万个可用工具中找出最合适的那几个。这就像你想做一道新菜,不确定该用什么调料,于是打开手机搜索"适合炖肉的香料",系统会给你推荐八角、桂皮、香叶等选项。
这种设计带来的好处是显而易见的。DeepAgent可以适应任意规模的工具集,无论是十个工具还是一万个工具,它都能应对自如。在实验中,研究团队让它使用包含一万六千多个真实API的工具库,DeepAgent依然能够准确找到需要的工具并正确使用。这种能力是传统方法根本做不到的,因为传统方法需要把所有可能用到的工具都事先加载到AI的"工作记忆"中,工具一多就会超载。
而且,DeepAgent始终保持着对整个任务的全局把控。它不会像传统助手那样只盯着眼前的一小步,而是始终记得最终目标是什么,已经完成了什么,还需要做什么。这种全局视角让它能够做出更明智的决策,避免在细枝末节上浪费时间。就像一个优秀的项目经理,他清楚地知道项目的最终交付物是什么,当前进度如何,接下来应该把精力放在哪里,而不会在不重要的小事上纠缠不清。
记忆管理的智慧:像大脑一样整理信息
如果说自主思考和工具发现是DeepAgent的两大法宝,那么智能的记忆管理就是它的第三个秘密武器。这个问题在长期任务中特别重要。想象你在侦破一个复杂的案件,随着调查深入,线索越来越多,如果不做好笔记和整理,很快就会被信息淹没。

DeepAgent面临的挑战是这样的:在处理复杂任务时,它可能需要调用几十次工具,每次工具调用都会返回一堆信息,这些信息加上它自己的思考过程,很快就会堆积成海量的文本。如果把所有这些历史记录都原封不动地保留,两个严重问题就会出现。第一,处理这些信息的计算成本会急剧上升,就像你的电脑内存不够用了一样会卡顿。第二,更糟糕的是,DeepAgent会在海量的历史信息中迷失方向,难以找到真正重要的线索,就像在一堆乱七八糟的便签纸中找那张记着关键信息的纸条。
研究团队给DeepAgent配备了一个巧妙的"记忆折叠"机制。这个机制的灵感来自人类大脑处理记忆的方式。我们的大脑不会记住所有细节,而是会把重要信息提取出来,把不重要的细节压缩或遗忘。比如你读完一本小说,不会记得每一句话,但会记得主要情节、关键人物和重要转折点。
DeepAgent的记忆折叠机制就是这样工作的。当它执行一个长期任务时,比如已经进行了二十多步操作,积累了大量的历史信息,这时它可以主动触发记忆折叠。就像一个人在忙碌了一天后坐下来整理思路,DeepAgent会停下来,把之前所有的思考过程和工具调用历史压缩整理成一个结构化的记忆摘要。
这个记忆摘要不是简单的文字总结,而是按照人类大脑记忆的方式分成三个部分,就像我们的大脑有不同类型的记忆系统一样。第一部分叫"情节记忆",记录的是整个任务的大事件和关键决策点,就像你回忆自己的经历时会想起"我先去了超市,然后去了银行,最后去了邮局"这样的主要情节。第二部分是"工作记忆",记录当前最重要的信息,包括现在正在做什么、遇到了什么困难、下一步打算怎么办,这就像你脑子里时刻记着的"现在要做的事"。第三部分是"工具记忆",记录用过哪些工具、哪些工具好用、哪些工具有坑,这就像你积累的工作经验:"上次用A工具遇到了问题,B工具效果更好。"
有了这个记忆折叠机制,DeepAgent可以"喘口气"重新出发。折叠记忆之后,那些冗长的历史记录就被替换成了简洁的结构化摘要,DeepAgent可以基于这个干净的记忆状态继续工作,不会被之前的海量信息拖累。更重要的是,这个机制给了DeepAgent一个反思的机会。当它发现之前的探索路径走入了死胡同,通过记忆折叠,它可以重新审视整个任务,调整策略,开启新的尝试。就像你玩一个很难的游戏关卡,死了好几次之后,坐下来冷静分析之前哪里做错了,然后用新策略再试一次。
为了确保记忆折叠不会丢失关键信息,研究团队设计了一套标准化的数据格式,就像给记忆装上了一个结构清晰的文件夹系统。这样,即使信息被压缩了,重要的线索也不会丢失,而且DeepAgent能够很方便地查找和使用这些记忆。这种设计比那些简单地把历史记录一股脑儿塞给AI,或者粗暴地删除旧记录的方法要聪明得多。
实验结果证明了这个记忆机制的威力。在那些需要几十步操作才能完成的复杂任务中,配备了记忆折叠机制的DeepAgent表现明显更好,不仅速度更快,成功率也更高。这说明,给AI助手装上一个像人脑一样的记忆管理系统,确实能让它变得更聪明、更可靠。
训练AI助手的秘诀:模拟环境加精准奖励
有了这么好的设计,下一个问题就是:怎么教会DeepAgent正确使用这些能力?这就像你招了一个天赋异禀的员工,但如果不培训好,他也发挥不出潜力。研究团队开发了一套专门的训练方法,叫做ToolPO,全称是"工具策略优化"。

训练AI面临的第一个难题是环境问题。DeepAgent要学会使用成千上万个真实的API工具,但在训练过程中如果真的去调用这些真实API,会遇到一堆麻烦。有些API调用一次要花钱,有些API不稳定经常出错,有些API响应很慢,如果让DeepAgent在训练时反复调用这些真实API成千上万次,不仅成本高昂,而且训练过程会变得很不稳定,就像你想训练一个厨师,但食材供应时有时无,质量时好时坏,这样怎么训练得好?
研究团队想出了一个聪明的办法:用AI模拟这些API。他们让一个辅助的大语言模型扮演这些API的角色。当DeepAgent在训练中想调用某个API时,比如"查询某部电影的评分",这个辅助模型就会根据API的文档说明,生成一个合理的返回结果。这就像你在学习炒菜时,不是真的用昂贵的食材练习,而是用便宜的替代品先把手艺练熟,等真正掌握了技巧再用真材实料。
这个模拟环境不仅解决了成本和稳定性问题,还有一个意外的好处:训练速度大大加快。因为不需要真的去网络上调用API等待响应,模拟环境可以瞬间返回结果,整个训练过程就像开了快进一样。实验中,使用模拟API训练的DeepAgent在真实环境中使用真实API时,依然表现出色,说明这种"模拟训练"的方式是行得通的。
训练的第二个难题是奖励问题。训练AI就像训练一只狗,做对了要奖励,做错了要提醒,AI才能学会正确的行为。但对于DeepAgent这种复杂的任务,只在任务最后给一个总分是不够的。想象你在训练一个人做一道复杂的菜,如果只在最后尝一口告诉他"做得不好",他怎么知道是哪一步出了问题?是盐放多了,还是火候不对,还是顺序错了?
研究团队设计了一个"精细奖励"系统。这个系统不仅会在任务结束时给出总评,还会在过程中对每一次工具调用进行单独评分。如果DeepAgent正确地选择并调用了工具,立即得到一个小奖励;如果调用错误或者参数不对,就得到一个负分。这就像教人做菜时,不仅在最后评价成品,还在每个步骤都给予指导:"这一步做得对,火候正好"、"这里盐放多了,下次少放点"。
更巧妙的是,研究团队还给记忆折叠功能也设计了奖励机制。如果DeepAgent在合适的时机使用记忆折叠,让任务完成得更高效,它也会得到奖励。这就像在教一个学生,不仅要教他知识,还要教他什么时候该停下来总结复习,培养良好的学习习惯。
整个训练过程使用了一种叫做"强化学习"的技术。简单来说,就是让DeepAgent不断尝试完成各种任务,每次尝试后根据表现给予奖励或惩罚,它逐渐学会什么样的行为能获得更高奖励,就会越来越多地采取那些好的行为。经过大量训练,DeepAgent学会了如何巧妙地搜索工具、如何准确地调用API、如何在恰当的时机折叠记忆,就像一个熟练的工匠掌握了自己的手艺。
训练数据也很讲究。研究团队收集了四大类任务数据:一类是通用工具使用,教它如何使用各种各样的工具;一类是真实环境交互,比如玩游戏、网购等,教它如何与环境互动;一类是深度研究任务,教它如何上网搜索信息、浏览网页;还有一类是数学推理,教它如何用代码解决数学问题。这种多样化的训练让DeepAgent成为一个全能型选手,而不是只擅长某一类任务的专才。
真实考验:八大战场的全面验证
说得再好听,最终还是要看实际表现。研究团队把DeepAgent放到了八个不同的测试场景中,这些场景有的考验工具使用能力,有的考验在复杂环境中完成任务的能力,全方位检验DeepAgent是否真的像宣传的那样厉害。

第一组测试是通用工具使用场景。这里包括ToolBench这个巨无霸数据集,里面有超过一万六千个真实世界的API工具,测试AI能否在海量工具中找到合适的并正确使用。还有API-Bank,包含七十多个API和七百多个测试用例,考察AI的规划能力、工具检索能力和调用能力。另外还有TMDB电影数据库和Spotify音乐播放器的模拟场景,看AI能否像真人一样操作这些应用。最后是ToolHop,这是一个需要连续调用三到七个不同工具才能完成的多跳推理任务。
在这些通用工具测试中,DeepAgent的表现相当抢眼。在最难的场景中,当需要AI自己去大量工具中检索需要的工具时(不是事先告诉它用哪些),DeepAgent的成功率达到了百分之六十四,而传统的ReAct方法最好也就百分之五十五。在Spotify和TMDB这些实际应用场景中,DeepAgent的成功率都超过了百分之五十,而基准方法大多只有百分之二十到三十。

第二组测试是下游应用场景,更接近真实世界的任务。ALFWorld是一个文字版的虚拟房间游戏,AI要像人一样在房间里走来走去,拿东西放东西,完成指定任务。WebShop是一个模拟购物网站,AI要根据用户需求搜索商品、比较价格、选择最合适的商品加入购物车。GAIA是一个通用AI助手测试,需要AI回答各种复杂问题,可能需要搜索网页、阅读文件、看图片、运行代码等各种能力的综合运用。最后是HLE(人类最后的考试),这是一个超高难度的测试,包含了研究生水平的各学科问题。
在这些实际应用中,DeepAgent同样表现出色。在ALFWorld游戏中,它的成功率达到了百分之九十二,明显超过各种基准方法。在WebShop购物任务中,它不仅成功完成购买的比例更高,购物得分也更优。在GAIA测试中,它的综合得分达到了百分之五十三,而传统方法大多只有百分之三十到四十。这些结果说明,DeepAgent不仅在工具使用的技术指标上表现好,在实际完成有用任务时也确实更可靠。
研究团队还做了很多深入分析。他们发现,DeepAgent的优势在开放场景中更加明显。什么意思呢?当工具库很大,没有人告诉AI该用哪些工具,完全需要它自己去找时,DeepAgent比传统方法的优势最大。这验证了"按需检索工具"这个设计思想的正确性。另外,训练确实有用,经过ToolPO训练的DeepAgent比只用基础模型的版本平均提升了三到四个百分点,在某些任务上提升甚至达到百分之六以上。
记忆折叠机制的作用也得到了验证。在移除记忆折叠功能后,DeepAgent在需要长时间交互的任务中表现明显下降,特别是在GAIA这种复杂任务上,性能从百分之五十三降到了百分之四十五。这说明,给AI配备智能记忆管理系统确实能让它在复杂长期任务中表现得更好。
研究团队还测试了DeepAgent能否适应不同规模的基础模型。他们用三十亿参数和两百三十五亿参数的不同模型做了实验,发现无论用哪个模型,DeepAgent的设计都能带来明显提升,而且模型越大,提升越明显。这说明DeepAgent的方法具有很好的可扩展性,未来随着基础模型越来越强大,DeepAgent的表现还能继续提升。
至顶AI实验室洞见
DeepAgent代表的是AI助手发展的一个重要方向:从机械执行预定流程,向真正智能的自主工作转变。就像人类从使用简单工具进化到能够创造和灵活运用各种工具一样,AI助手也需要这样的进化。
这项研究展示了AI确实可以像人一样工作。不是说AI变得跟人一模一样了,而是说在解决问题的方式上,它可以采用更接近人类的灵活策略:根据任务需要动态地寻找和使用工具,保持对整体目标的清晰认知,智能地管理自己的记忆和注意力。这种工作方式比那些机械的、预设的流程要高效得多,也可靠得多。
未来你的AI助手可能真的能像一个得力助手一样帮你做事。你不需要告诉它每一步该怎么做,不需要提前帮它准备好所有工具,甚至不需要担心任务太复杂它会搞砸。你只需要告诉它你想要什么结果,它就能自己想办法,找工具,完成任务,最后给你一个满意的答案。
从论文来看,即使是表现最好的DeepAgent,在某些任务上的成功率也还没有达到百分之百。特别是在那些需要深度推理和常识判断的任务中,AI还有很长的路要走。但进步是明显的,方向是对的。
五年后、十年后,当这种技术成熟并普及,我们每个人都可能拥有一个真正智能的AI私人助手。它能帮你管理日程,能帮你研究问题,能帮你处理复杂的工作任务,就像有一个永远不知疲倦、博学多识的助理随时待命。
Q&A
Q1:DeepAgent和ChatGPT这类AI助手有什么不同?
A:最大的区别是工作方式。ChatGPT等传统AI助手是按照预设流程一步步工作的,就像按食谱做菜。而DeepAgent更像经验丰富的大厨,能在一个连续思考过程中自主决定需要什么工具、主动去找工具并使用,全程保持对任务的全局把控。特别是在处理复杂任务时,DeepAgent还能智能管理自己的"记忆",不会被海量信息淹没。
Q2:DeepAgent能用在哪些实际场景中?
A:DeepAgent特别适合需要使用多种工具和长期交互的复杂任务。比如组织活动时需要在多个平台搜索信息、联系人员、预订服务;做研究时需要搜索文献、分析数据、生成报告;甚至是玩复杂的策略游戏或完成购物任务。研究显示它在这些场景中的表现都明显超过传统AI助手。
Q3:记忆折叠机制是什么意思?
A:这是DeepAgent的一个关键创新,就像人脑整理记忆一样。当AI执行长期任务积累了大量信息时,记忆折叠机制会把这些信息压缩整理成结构化的摘要,分为三部分:情节记忆记录主要事件,工作记忆记录当前状态,工具记忆记录使用经验。这样既节省了计算资源,又让AI能在海量信息中抓住重点,还能在走入死胡同时"重新开始"尝试新策略。
好文章,需要你的鼓励
Rivian分拆公司Also与亚马逊达成多年合作协议,将为这家电商巨头提供数千辆新型踏板助力四轮货运车TM-Q。该车辆载重超过400磅,体积小巧可使用自行车道。双方将合作定制车辆以满足亚马逊在欧美的配送需求,预计2026年春季投入使用。Also从Rivian内部项目发展而来,今年独立融资1.05亿美元,将利用可拆卸电池技术和专业物流软件为密集城区提供最后一公里配送解决方案。
Character AI联合耶鲁大学开发的OVI系统实现了音视频的统一生成,通过"孪生塔"架构让音频和视频从生成之初就完美同步。该系统在5秒高清内容生成上显著超越现有方法,为多模态AI和内容创作领域带来突破性进展。
知名投资机构Accel和Prosus宣布建立新的投资合作伙伴关系,专门支持印度初创企业从零开始发展,重点关注那些能够为南亚地区大众提供大规模解决方案的创始人。这是Prosus首次在企业成立阶段进行投资。双方将从创业公司最早期开始共同投资,专注于解决自动化、能源转型、互联网服务和制造业等领域的系统性挑战,初始投资金额从10万到100万美元不等。
这项由南洋理工大学研究团队开发的DragFlow技术,首次实现了在先进AI模型FLUX上的高质量区域级图像编辑。通过创新的区域监督、硬约束背景保护和适配器增强等技术,将传统点对点编辑升级为更自然的区域编辑模式,在多项基准测试中显著超越现有方法,为图像编辑技术带来革命性突破。