
同一天,Engram宣布从隐身模式出发。这家2025年10月成立的公司仅13人,拿到了9800万美金融资,估值6亿美金。领投方是General Catalyst,Kleiner Perkins和Sequoia跟投。天使投资人名单包括OpenAI联合创始人Andrej Karpathy和Wiz CEO Assaf Rappaport。创始团队的密度同样惊人:CEO Dan Biderman在哥伦比亚大学理论神经科学中心读博,在Stanford跟随Chris Ré做博后;Jessy Lin是Berkeley博士、前Meta FAIR研究员;CTO Sabri Eyuboglu同样出自Stanford Chris Ré实验室,开发了名为"Cartridges"的模型记忆架构;联合创始人还包括Cornell博士Jack Morris、Stanford终身教授Scott Linderman,以及Chris Ré本人。Dan的妻子Natalie Biderman是Stanford的记忆研究者,也是公司的第一号员工。
记忆和持续学习现在是一个非常热门的话题。就在两个月前的2026年4月20日,DeepMind CEO Demis Hassabis在Sequoia AI Ascent活动上明确表态:持续学习还没被攻克,这个领域需要新的突破。 这不是学术界自说自话。当前沿实验室自己承认记忆是一个未解问题时,一家专注于此的公司拿到近一亿美金,就不只是资本故事了。
"我们不用预训练或后训练的视角看世界。我们的模型永远在训练。" Engram网站上的这句话是整期播客的起点。主持人Sonya Huang直接问:这句话到底是什么意思?
Jessy Lin给出了定义。今天的大模型从预训练和后训练中获得了深厚的能力,但这些能力是通用的。让模型变得更有用的瓶颈已经不在原始智力上,而在理解新的、不断变化的上下文上。 一个新任务、一个特定的工作场景、一家公司独有的做事方式,这些东西怎么像预训练那样深深写进模型权重?
这就是Engram所说的"always training"。他们把memory和continual learning视为同一枚硬币的两面:memory是学到什么,continual learning是怎么持续地学。传统的AI开发流程把世界切成泾渭分明的两个阶段,先训练,然后部署。Engram认为这个分界线应该消失。
Dan Biderman做了一个补充。他强调Engram的模型并不赌外部工具会消失。便签纸和笔记本永远有用,但人类第二天醒来时脑子里总会留下前一天的痕迹,某种新的直觉。 现在的AI缺少这个环节。所有的context engineering、所有的RAG,本质上都是便签纸。模型每次对话都从零开始理解你。
大多数人以为,让AI更了解你的公司只需要更好的检索和更长的上下文窗口。Engram的数据却指向另一个方向。
Dan Biderman给出了一个具体的对比:关于人员、团队、组织架构、优先级这类信息,你在任何单一文档里都找不到,除非公司有极其严格的文档制度把所有东西都写下来。在这种情况下,最好的前沿模型需要消耗10万个token才能拼凑出答案,而经过Engram训练的模型可以在100个token内直接回答。
这不是50%的效率提升。两个数量级的差距,光是省去巨型system prompt和反复检索就能带来。
当前的主流方案是context engineering:把大量上下文塞进提示词窗口,让模型在推理时即时消化。Dan Biderman承认这些工具有用,但他指出了两个结构性问题。
第一是成本。每个人每天产生的token量很快就会达到数千万级别。不断重读和检索这些内容的推理开销巨大,而且对模型来说也会越来越混乱。
第二是深度。即时消化文档和真正理解一家公司之间有本质区别。Jessy Lin用了一个类比:读文件只能做到"一个聪明的陌生人翻了翻你的文件夹",而训练可以让模型像一个在公司工作了好几年的老员工一样运转。 老员工知道公司的项目、流程、做事方式,知道招聘流水线怎么跑,知道哪些事优先级高。这种理解不是翻文件能翻出来的。
Engram目前已经与Microsoft、Notion和Harvey达成合作。这三个平台有一个共同特征:它们都是人们长时间工作的数字空间,积累了大量的文档、对话和反馈。Engram的做法是在这些workspace里为每个团队训练定制化的模型,让模型从这些上下文中持续学习。
Dan Biderman在播客中算了一笔账。
一篇关于Taylor Swift的维基百科词条,原始文本只有几十KB。但当它被送进一个70B参数的Llama模型时,产生的KV缓存——也就是transformer在注意力计算中存储的中间状态——大约占GPU上80GB的高带宽内存HBM。
而这个70B模型的全部权重呢?大约100GB。
仔细想想这个对比:100GB的权重通过梯度下降训练,在某种意义上编码了整个互联网的知识。而KV缓存却把一篇几十KB的文章膨胀成了80GB的"脑状态"。一边是几万亿字节的互联网被压进100GB权重,另一边是几十KB的文章被膨胀到80GB的缓存。
"We have this proof of existence that gradient descent can pack a lot of information in very few numbers." Dan Biderman说,梯度下降有能力把大量信息压进极少的数字里,这已经被证明是可能的。
这笔账的含义直接:如果能用离线计算把KV缓存里的信息压缩到千分之一,把它"蒸馏"进权重或某种紧凑表征里,加载速度、运行效率和表征的保真度都会发生质变。这也是Engram最初的技术起点。Dan Biderman和团队对KV缓存做了深度研究,然后得出结论:与其优化缓存,不如把知识直接训进权重。
主持人Sonya Huang追问:caching难道不能解决重复查询的问题吗?
Jessy Lin的回答切中了一个关键区别:缓存确实能解决一部分重复查询的成本问题,但缓存做不到的事情是在已有知识上构建新的联想。如果你永远只做检索,你问我搜A我搜A。但权重里的知识可以在没有查询指令的情况下,自动在不同信息之间建立关联。 你的同事在做某个研究方向,模型如果真正内化了团队的知识,可能会在你没问的情况下主动联想到一个相关方向,提醒你注意。这种联想只能发生在权重里。
Dan Biderman补充了检索系统的另一个深层局限:问题不在于怎么存数据,而在于怎么查。很多时候模型根本不知道该搜什么。 尤其是当前主流的检索方式还停留在关键词搜索阶段,因为关键词搜索在RL训练中最容易扩展,也最不依赖embedding基础设施。知道该搜什么,本身就是一种需要内化到权重里的直觉。
"到底什么该内化到权重里、什么该留在外面检索?" 主持人Shaun Maguire反复追问这个问题。Dan Biderman给了一个直觉类比。
一年前住过的酒店房间号需要记在你的神经组织里吗?不需要,写下来就好。但当前家门密码大概值得印在脑子里,至少未来几年内是有用的。
他坦承,这在知识工作和产品场景中仍然是未解问题。Engram尝试用尽量少的启发式规则来处理训练数据的筛选。他用了一个例子:人类每天刷TikTok、接触大量垃圾信息,大脑仍然能学到东西而不会完全跑偏。模型也应该有同样的鲁棒性,而不是需要人工精心挑选每一条训练数据。
Jessy Lin从另一个角度回应了这个问题。她说,如果你观察今天的应用层,大量的工作都是在让模型适配你的用例:让它用你的品牌风格设计网站、按你的习惯写作、学会你的工作流。事实和技能在这些场景里根本分不开。Engram的训练方法对事实和技能一视同仁,方法本身是不区分的。
她还指出了一个容易被忽视的维度。当前模型对很多定制化任务还不够好。Engram认为会持续存在一个三到六个月的领先窗口:前沿模型还没覆盖到的边缘场景,轻量级的持续学习可以提前填上。前沿模型最终会覆盖这些场景,但在窗口期内,能自主学习的模型就有独特的价值。
Dan Biderman的学术起点并不在AI领域。他最初对意识和人类认知感兴趣,博士在哥伦比亚大学理论神经科学中心。他引用了以色列认知心理学家Amos Tversky的名句来定位自己的研究动机——Tversky是Daniel Kahneman的长期合作者,行为经济学和决策理论的奠基人之一。"My colleagues, they study artificial intelligence; me, I study natural stupidity." 他的同事研究人工智能,而他研究的是人类天生的愚蠢。
Dan说,他后来从认知科学转向AI,是因为发现AI系统中的记忆和持续学习问题与生物系统中的同类问题一样紧迫,但当前的解决方案与生物系统的差距很大。 他同时强调自己不是生物模仿主义者。机器在很多方面比人强,比如无损存储一整个代码库,完全不需要AI就能做到。但人类大脑在信息容量的约束下进化出了一种特殊能力:有损表征。丢掉大部分细节,留下能被抽象化、能形成新连接的模糊痕迹,然后在第二天用这些痕迹继续工作。当前的AI系统在通用预训练之外完全没有这个环节。
主持人随口问了一句:模型有意识吗?Dan的回答是:他不觉得模型有意识,但聪明人在认真思考这个问题,这件事本身重要。
这个学术背景直接映射到Engram的一个核心技术判断:事实记忆和技能学习不可分割。
学界有一种声音认为,模型死记硬背"法国首都是巴黎"这类事实是浪费容量,不如让模型只学概念和技能,事实全部外部检索。Jessy Lin对此的回应是:有人做过实验,把模型的事实知识剥离,只留"纯核心"能力。结果模型变得极不自然,连基本的东西都不知道了。
原因在于,模型的思考过程需要调用基础事实来推进下一步推理。如果每一步都要暂停去检索基本概念,推理链就走不远。内化的事实是构建更复杂、更抽象思考的积木。
Dan Biderman用一个框架把这个判断放进了更大的图景里。在传统计算机科学里,数据库和算法是两门独立的课程。数据库负责存储和查询事实,算法负责高效地处理信息。深度学习的特殊之处在于,它把这两件事搅在了一起。 存储和计算在同一组权重里完成。这也是为什么Anthropic的可解释性团队这么重要:他们在做的事情,本质上就是试图把被混在一起的东西重新拆解开来。
Dan观察到,AI在经济中的落地过程实际上是这两者在重新分离。企业有自己的上下文和数据,小心翼翼地管理;通用模型是一个对这些上下文完全陌生的"外人",在企业数据上运行。但他强调,这两者需要周期性地再次融合,把企业的事实和细节混入模型权重。真正要解决的问题是什么值得记住、什么可以放在外面。
Jessy Lin用人类记忆的有损性做了呼应:智能的一部分功能就是压缩重要的信息、丢弃不重要的。 学术界的benchmarks却在考察模型能否记住非洲某个国家某座桥的长度。这既不是模型应该分配容量的事,也不是人类大脑会记住的事。
Dan Biderman从神经科学借来了一个类比。人类做梦时会对白天的经历做某种离线处理。我们在梦里看东西、和自己对话、在各种情境中实验自己能做什么、不能做什么。这些梦境偏向社交场景,人类用睡眠来消化社交经验。
Engram受到了宽泛的启发。他们给模型一个退出实时交互的阶段,让模型在一个环境里自己实验它的可操作空间,测试它知道什么、能处理多极端的情况。现在的AI系统缺少这个"消化"的环节。所有事情都发生在test time,模型看到上下文就即时推理,推理完就忘掉一切。 即时推理的天花板比想象中低,而且沿途会犯错。怎么把这些经历消化回模型权重,让它下次做得更好、走得更远?这是Engram认为最关键的缺失环节。
Dan随后举了一个更直观的例子。假设OpenAI要在一周内赢一场数学奥林匹克竞赛,他们会怎么做? 是精心整理一份数学教材目录、让人标注哪些章节要读?还是收集数据、合成训练集、启动一个训练任务、五六天后看效果?对训练过模型的人来说不需要多解释。训练是跨idea、跨能力整合的优越方式。
这种"训练的魔法"目前只被应用在数学、代码、网络安全这些高风险领域。Engram的赌注是同样的魔法可以被交到更多人手里,用在企业的私有场景上。
技术层面,Engram的路径是adapter fine-tuning,在基础模型之上挂载轻量级可训练参数。具体方案包括LoRA、prefix tuning、稀疏架构等,不改变底层模型本身。关键约束是需要white-box access,也就是拿到模型权重。对开源模型可以直接操作,只要是transformer架构就行。对闭源模型需要和拥有权重的公司合作。
训练信号的来源同样重要。怎么把一堆原始文档、一段用户对话、一轮反馈转化成有效的训练信号?Engram同时使用SFT、RL和on-policy distillation,这些都是前沿实验室用来让模型在数学和代码上变强的工具。Jessy Lin的核心观点是:这套训练工具箱已经存在,只是在企业场景里被严重低估了。
主持人Shaun Maguire问了一个问题:memory会不会随着更多数据、更多compute自然涌现,根本不需要独立的方法?
Dan Biderman没有反驳bitter lesson,反而把它接了过来,换了一个方向。他说Engram和任何人一样相信bitter lesson,但bitter lesson的结论应该是"想想怎么烧更多compute,怎么把它烧在你还没见过的新上下文上",而不是全部堆在更大的通用预训练上。
他补充了一段个人经历作为佐证。他们团队此前参与过state space模型家族的研究,试图用次二次开销处理超长上下文。这个方向的模型确实更省内存,一些中国顶级模型已经在用受state space启发的层。但Dan在实践中发现,accuracy和memory之间总有trade-off,没有免费午餐。 所以Engram选择了另一条路:与其改架构,不如用现有的transformer加adapter,把更多compute投入到对新上下文的训练上。
Engram目前先从workspace层面入手。Dan解释说,团队的信息更有纪律性,积累了多年的文档和工作流,数据量和质量更适合训练。但他明确表示,每个人的电脑和手机最终都是Engram技术的适用场景。当下信息的大矿藏在团队协作中,团队先行只是路径选择。
OpenAI、Anthropic、Google这些公司为什么不自己做记忆和持续学习?这个问题绕不开。
对于前沿实验室来说,第一优先级就是做出AGI。更多预训练、更大模型、更多数据、更多RL、更多推理时算力。所有的支出和顶级人才都集中在这里。 记忆和持续学习当然有人在想,但目前更多是产品层面的努力,不是研究层面的P0。Dan Biderman认为这个问题配得上独立的、全力以赴的关注。
Jessy Lin从技术层面补充了前沿实验室范式的结构性盲区。他们的训练流水线建立在干净的监督信号和明确的奖励函数之上:清晰的代码测试、标准的数学题验证。但现实世界中大量任务是模糊的,什么算"好"并没有客观标准。
更重要的是,很多企业和个人想让模型学的东西,要么是私有的,永远不会出现在公开训练数据集里;要么是互相冲突的,A公司的做法和B公司完全不同。这些场景天然就和"一个越来越大的通用模型"的路径不兼容。
Jessy Lin列举了实现这个愿景需要改变的三件事。一是新的研究突破。二是新的训练基础设施,为每个人训练小模型,而不是一次大规模训练跑出一个通用模型。三是研发和产品的深度融合。
现在前沿实验室的模式是:研究团队训好模型,扔给产品团队,产品团队在上面做context engineering包装新功能。但在模型持续训练的世界里,用户提供的输入和模型的训练信号是紧密绑定的。 研发和产品之间需要的不是"翻墙传球",而是一个紧密的循环。Engram同时在推研究前沿和部署真实产品,原因正在这里。
如果你今天辞职,全力用所有前沿模型的API来给自己打造一个个性化AI助手,只靠context engineering,你能做的事极其有限。你还不如等下一版模型出来。
Dan Biderman用这个思想实验来说明当前范式的天花板。Engram希望改变的正是这个现状:你花在和模型互动上的时间越多,它在你关心的领域上表现就越好。
主持人问什么会是记忆领域的ChatGPT时刻。Jessy Lin回答:当你给一个AI"实习生"教东西,它随时间推移真的在变好,和昨天不一样。 所有人都在等这个证明。无论context engineering做得多精巧,目前都没到这个效果。
Dan Biderman补充说,ChatGPT当年也是出乎所有人意料的产品形态,事先没有人预判到这种交互方式会爆发。记忆的突破时刻可能同样不可预测。但他对一件事确信无疑:只靠更好的context engineering,这个时刻不会到来。你需要训练。
Shaun Maguire提出了一个更远的概念:既然可能每人都有一个"token wallet"跨产品使用,那会不会也有一个"memory wallet"在不同产品和公司之间跟着你走?
Jessy Lin的看法是需要边界。她自己用ChatGPT时就不希望它把个人场景和工作场景的记忆混在一起。"你上周训了个GPU模型"然后它就推荐你看表格工具,完全不搭。用户需要对记忆有控制权。不同场景的记忆应该是分开的。
Dan Biderman则描绘了一个更远的愿景。你在一家公司工作,产生的所有IP留在公司,但你学到的技能、发明的方法可以经过"脱敏"后带到下一份工作。人类在生物层面已经在这么做了,靠的是NDA和职业伦理。如果能在数字世界实现同样的事,会推动每个人更深入地在工作和生活中应用AI,并因此获益。
播客的最后,Dan Biderman用一个来自神经科学的类比收尾。在大脑中,记忆和空间导航使用的是同一组神经回路,海马体中负责表征空间地标的细胞同时也负责情景记忆。他设想Engram成为数据平面的LLM接口,角色类似于Databricks和Oracle在传统数据领域做的事,但本质不同。Engram构建的是神经记忆,由个性化的模型承载。可能有数亿个这样的模型,每一个都是对某个组织或个人的文件系统的"脑状态"表征,而非文件系统本身的镜像。 这种表征更高效、更具关联性。
Shaun Maguire坦言自己2007年在Stanford读博时进入AI领域,那时候"AI无聊透了,全是统计学习"。2012年AlexNet出来后视觉主导了六年。他承认自己在2018-2020年低估了LLM的发展,因为有根深蒂固的视觉偏见。
他提出了一个自称"crackpot theory"的假说。在生物体中,视觉相对于语言有巨大的信息论优势。大脑通过眼睛处理光学信号的比特率比通过耳朵处理声波的比特率高出几个数量级,而且视觉信号在到达大脑前还有大量光学层面的预处理,光子到电子是降维。但听觉信号是声波到电子,反而是升维。在计算机上,一切都是电子信号处理。视觉和语言被拉到了同一个起跑线上。 相当于"削弱了视觉的先天优势,抬升了语言的地位"。而transformer恰好是一个更适合语言的架构。
Dan Biderman作为神经科学家,没有直接评判这个理论的对错。他说人类大脑中分配给视觉的皮层面积——枕叶——大概多于负责语言的颞叶。但话说到一半他停了下来,说他得去查一下。
"No man I'm externalizing. I'm a big RAG believer in my personal lifestyle." 我在个人生活中可是坚定的RAG信徒。一位做"把知识训进权重"的CEO,承认自己脑子里没记住枕叶和颞叶的面积对比。
他随后给出了一个更实际的观点。人类坐在电脑前读文档、写备忘录,这些都不是我们进化出来要做的事。 我们的大脑没有为此布线。但让LLM替我们做这些事照样有用。对于知识工作而言,文本就够了。
另外一个技术观察:在训练视觉语言模型时,语言部分往往会主导视觉部分的表现。两种模态在模型内部如何分配"资源",这个问题还远远没解决。
Engram的核心赌注可以浓缩为一句话:今天的AI是"天才陌生人",每次对话都从零开始即兴了解你。Engram要把它变成"在公司干了三年的老员工",把组织知识训进权重,让模型有真正的记忆。
这个赌注能否成立,取决于几个未被验证的假设:持续训练能否在不摧毁已有能力的前提下注入新知识,也就是灾难性遗忘这道坎;adapter微调在实践中能否覆盖足够丰富的组织知识类型;以及"什么该内化、什么该外部化"这个根本问题能否找到可操作的答案。但他们提出的KV缓存算术题、检索系统的寻址盲区、以及"事实和技能不可分割"的论证,至少说明了一件事:context engineering和RAG作为当下的权宜之计,有其物理极限。
Q1: Engram和RAG的关系是什么?是替代还是互补?
Dan Biderman和Jessy Lin都明确说这是一个未解问题。Engram的模型始终假设外部工具和检索会存在。但他们认为RAG有一个根本局限:它只能做"你让我搜什么我搜什么",无法在没有查询指令的情况下主动建立知识间的关联。这种联想能力只能发生在权重里。短期来看,把组织知识训入权重可以大幅减少推理时的token消耗,Engram声称可达100倍。这对成本已经成为企业AI部署痛点的当下有直接吸引力。Dan Biderman算的那笔KV缓存的账:一篇维基百科80GB的KV缓存 vs 整个Llama 70B才100GB的权重,是这个判断的量化佐证。
Q2: 事实记忆和技能学习能不能分开处理?
Jessy Lin的回答是不能。有人尝试过把事实从模型中剥离只留"纯核心"能力,结果模型变得极不自然。Dan Biderman用一个框架解释了为什么:传统CS把数据库和算法分成两门课,深度学习把它们搅在了一起。现在AI落地的过程其实是两者在重新分离,企业数据在外面,通用模型在里面。但他们认为需要周期性地让两者重新融合。关键在于判断什么值得内化到权重、什么可以留在外面查。人类记忆的有损性给了一个启示:智能的一部分功能就是压缩重要的信息、丢弃不重要的。学术界考察模型能否记住非洲某座桥的长度,这个方向跑偏了。
Q3: 为什么记忆和持续学习不能只靠前沿实验室的下一个版本来解决?
前沿实验室的P0是AGI,记忆和持续学习目前只是产品层的事。更重要的是,企业想让模型学的东西大多是私有的或互相冲突的,这和"一个越来越大的通用模型"的路径不兼容。Jessy Lin还指出,前沿实验室的训练流水线依赖干净的监督信号和明确的奖励函数,但现实世界中大量任务是模糊的,什么算"好"没有客观标准。这需要不同的研究方法、不同的训练基础设施,为每个人训小模型而不是一次大跑,以及研发和产品更紧密的融合。Dan Biderman引用Demis Hassabis在2026年4月Sequoia AI Ascent上的表态作为旁证:持续学习还没被攻克,需要新的突破。如果连前沿实验室自己都承认这是未解问题,一家专门做这件事的公司就有存在的空间。
好文章,需要你的鼓励
牛津大学提出PHYSIFORMER,一种扩散变换器模型,通过三维网格顶点轨迹直接在世界坐标空间预测刚性与弹性物体的物理运动,一次性生成全序列轨迹,超越自回归基线。
随着医疗数据数字化与互操作性的进步,跨机构纵向患者数据的研究应用成为可能。本研究通过对20位领域专家的访谈,识别出8种数据收集方法,涵盖智能手机应用、结构化数据导出、区域/全国研究查询及聚合数据源等。研究发现,各方法均有其优缺点,无单一最优方案。参与者中介交换方式可绕过复杂治理安排,但存在数据缺口;全国性网络尚不支持研究查询。公共政策的持续推进将对该领域发展起关键作用。
研究发现主流奖励模型对同等质量答案给出差异悬殊的分数,并提出"奖励聚类"算法通过蒙特卡洛随机失活将连续分数离散化,在不重训模型的前提下有效减少AI训练中的奖励作弊现象。