AI无法处理长文档?字节提出人工海马网络,让AI像人脑一样高效处理超长信息 原创
AI无法处理长文档?字节提出人工海马网络,让AI像人脑一样高效处理超长信息
如果要你记住一整本厚厚的百科全书,你会怎么做?你肯定不会死记硬背每一个字,而是会提取重点、归纳总结,把最重要的东西记在脑子里,需要细节时再去翻书。人类大脑就是这样聪明地管理信息的。现在,字节Seed团队的研究人员们成功地把这种智慧"移植"到了人工智能身上,专门用来解决AI处理超长文本时遇到的"记忆力"难题。就像人脑中的海马体能够把短期记忆转化为长期记忆一样,人工海马网络也能帮助AI模型既保持关键信息,又不会因为记忆负担过重而"卡壳"。
2025年10月8日,字节Seed团队提出了人工海马网络(AHN),AHN是一种模仿人脑记忆系统的AI架构。AHN通过滑动窗口保留最近信息作为短期记忆,同时用类似海马体的模块将历史信息压缩为固定大小的长期记忆。在处理128,000词元的超长文本时,AHN将计算量降低40.5%,内存占用减少74.0%,性能反而提升33%。这项技术已开源,为AI高效处理长文本开辟了新路径,在文档理解、长时对话等领域具有广泛应用前景。论文发表于arXiv。代码和模型已经开源,可以在GitHub和HuggingFace上找到。
要理解这项研究的价值,我们先要搞清楚AI在处理长文本时到底遇到了什么麻烦。现在最流行的AI语言模型,比如GPT、Claude这些,都是基于一种叫"Transformer"的架构。这种架构有个核心机制叫"注意力机制",你可以把它想象成一个超级认真的学生,在读文章时会把每个词都标注重点,并且记住它们之间的所有关系。
听起来很棒,但问题就出在"记住所有关系"这一点上。想象你在读一本侦探小说,如果要记住每个人物在每一页中说过的每一句话,以及这些话之间的所有联系,你的大脑很快就会爆炸。AI模型也是一样。当文章越来越长时,这种"记住一切"的策略会导致两个严重问题:一是需要的存储空间会随着文章长度线性增长,就像你的书架很快就会被塞满;二是处理这些信息的计算量会以平方级增长,也就是说文章长度翻倍,计算量要增加四倍。
有人可能会说,那我们用另一种方法啊,比如早期的循环神经网络(RNN)。RNN就像一个非常节省空间的图书管理员,它不会把所有书都摆出来,而是把信息不断压缩总结成一个固定大小的"摘要"。这样确实很省空间,处理速度也很稳定,不管文章多长,占用的内存都是一样的。但这种方法有个致命缺陷:在不断压缩的过程中,很多重要细节会丢失。就好比你把一本厚厚的小说总结成一句话,虽然节省了空间,但精彩的情节和细节都没了。
这就是AI领域长期面临的一个根本矛盾:要么像Transformer那样保留所有细节但代价昂贵,要么像RNN那样高效节省但会丢失信息。科学家们一直在寻找两全其美的办法,而字节团队的这项研究,正是在这个方向上取得的重要突破。
研究团队的灵感来自人类自己的大脑。在认知科学领域,有一个著名的理论叫"多存储模型"(Multi-Store Model),最早由心理学家阿特金森和希夫林在1968年提出。这个理论认为,人的记忆系统不是单一的,而是分为不同的"仓库"。
最前面的是感觉记忆,就像你眼前一闪而过的画面,只能保持几秒钟。接着是短期记忆(也叫工作记忆),就像你正在思考的内容,可以保持几分钟到几小时,但容量有限。而长期记忆就像一个巨大的档案馆,可以存储几乎无限的信息,而且能保持很长时间,从几天到一辈子都有可能。关键是,这些记忆系统之间可以互相转化。大脑中有个叫"海马体"的结构,它的重要功能之一就是把短期记忆转化为长期记忆,这个过程叫"记忆巩固"。
举个例子,假设你正在学习准备考试。你刚读完一页书的内容,这些信息首先进入你的短期记忆,你能回忆起刚才读的内容,但如果不复习,过几个小时就会忘记大部分。但是如果你反复阅读、理解、联系其他知识,海马体就会把这些信息"打包整理",转化为长期记忆存储在大脑皮层中。这样即使过了很久,你依然能想起这些内容的核心要点,虽然可能记不清每一个细节。
人脑的这种记忆系统非常高效。大脑的体积在人的一生中基本保持不变(成年后甚至会略微缩小),但我们却能持续学习和记忆新东西。这是因为大脑不是简单地"堆积"信息,而是通过压缩、整合、关联等方式,把信息存储在一个相对固定的空间里。就像一个聪明的图书管理员,不是简单地把新书往书架上塞,而是会重新分类、整理、归档,让有限的空间容纳更多的知识。
字节的研究团队正是受到这种双重记忆系统的启发,设计出了人工海马网络。他们想:既然人脑能用这种方式高效地处理信息,为什么AI不能呢?
那么,人工海马网络到底是怎么工作的呢?让我用一个更贴近日常生活的比喻来解释。
想象你在管理一个小型图书馆。图书馆有一个明亮的阅览室,那里的书架上摆放着最近读者频繁借阅的书籍,这些书随手可得,读者可以立刻翻阅,不会遗漏任何一页。这就相当于人工海马网络中的"短期记忆",在技术上叫做"滑动窗口注意力"。这个窗口里保存的是最近的文本内容,完全无损,每一个词都清清楚楚地保留着。
但是阅览室空间有限,不可能把所有的书都摆在那里。那些暂时不那么常用的书,你会怎么处理呢?你会让一位经验丰富的图书管理员把它们整理归档到图书馆的大书库里。这位管理员不会简单地把书塞进去就完事,而是会仔细阅读、分类、提取关键信息,然后建立一个详细的索引系统。这样,虽然书不在阅览室的开架上了,但通过管理员的整理归档,你依然能快速找到需要的信息。这就是"人工海马网络"在做的事情——它扮演着那位图书管理员的角色,把滑出窗口的旧信息压缩整理成一个固定大小的"记忆状态"。
具体来说,这个系统是这样运作的。当一段新文本进来时,最近的一部分(比如最后的32,000个词元)会被完整地保留在"滑动窗口"里,就像摆在阅览室开架上的书。但随着新内容不断涌入,更早的内容会逐渐被"挤出"窗口。这些被挤出的内容不会被简单地丢弃,而是会被送到人工海马网络进行处理。
人工海马网络会像一位经验丰富的图书管理员那样,读取这些即将被"归档"的内容,理解它们的含义,提取重要信息,然后更新一个叫做"压缩记忆状态"的东西。这个记忆状态就像一个内容丰富但体积固定的档案摘要,无论外面的文本有多长,这个摘要的大小都保持不变。
当AI需要生成下一个词或回答问题时,它会同时查阅两部分记忆:一是阅览室里那些完整保留的最近内容(滑动窗口),二是图书管理员整理的那份档案摘要(压缩记忆状态)。这样一来,AI既能获得最新信息的精确细节,又能掌握历史信息的核心要点,而不需要把所有内容都原封不动地记住。
这个方法的巧妙之处在于,它实现了一种动态平衡。对于刚刚看到的内容,系统保持完全的记忆精度;而对于较早的内容,系统会智能地压缩,只保留最关键的信息。这种策略既保证了处理效率,又最大限度地减少了信息损失。
为了实现这个"图书管理员",研究团队尝试了三种不同的技术:Mamba2、DeltaNet和GatedDeltaNet。这三种技术都属于现代的循环神经网络家族,它们的共同特点是能够高效地将信息压缩成固定大小的状态,而且支持快速的并行训练。研究团队把这三种技术分别应用到人工海马网络中,创建了三个变体:AHN-Mamba2、AHN-DN(DeltaNet)和AHN-GDN(GatedDeltaNet)。实验表明,这三个变体都表现出色,其中AHN-GDN在多数任务上略胜一筹。
有了这个双重记忆系统的设计,下一个问题是:怎么让这个"图书管理员"(人工海马网络)学会正确地归档信息呢?研究团队采用了一种非常聪明的训练方法,叫做"自蒸馏"(Self-Distillation)。
自蒸馏这个名字听起来很玄乎,但原理其实很简单,就像是"让学徒跟着大师学习"。具体来说,研究团队首先选择了一个已经训练得很好的大型语言模型作为"老师"(比如Qwen2.5系列模型)。这个老师模型使用完整的注意力机制,能够看到所有的历史文本,所以它的回答非常准确。
然后,研究团队创建了一个"学生"模型,这个学生模型就是配备了人工海马网络的版本。学生模型看不到所有的历史文本,它只能看到滑动窗口里的最近内容,以及人工海马网络提供的压缩记忆摘要。学生模型的任务是:在这种受限的条件下,尽可能准确地模仿老师的回答。
这就好比一个学徒图书管理员在跟着大师学习。大师能够随时查阅所有的书籍和档案,给出最准确的答案。而学徒只能依靠有限的资料和自己整理的笔记本,但他必须学会如何整理笔记,才能给出和大师一样准确的答案。通过不断练习,学徒会逐渐掌握什么信息应该记在笔记本里,怎样组织这些信息才能在需要时快速找到答案。
在技术层面,这个训练过程是通过最小化"KL散度"(Kullback-Leibler divergence)来实现的。KL散度是一个衡量两个概率分布差异的指标,简单说就是衡量老师和学生的回答有多不一样。训练的目标就是让学生的回答尽可能接近老师,也就是让这个差异尽可能小。
这种训练方法的妙处在于它的高效性。研究团队只需要训练新增的人工海马网络部分,原有的语言模型参数全部冻结不动。这就像你不需要重新培训一个图书管理员的所有技能,只需要教会他如何整理归档新书。这大大降低了训练成本,使得在普通的计算资源上就能完成训练。
而且,为了让人工海马网络学到更通用的压缩策略,研究团队在训练时还加入了随机化设计。他们会随机改变滑动窗口的大小,以及人工海马网络开始工作的位置。这就好比让学徒在不同的工作场景下练习:有时候阅览室大一点,有时候小一点;有时候从第100本书开始归档,有时候从第200本开始。通过这种多样化的训练,人工海马网络学会了在各种情况下都能有效地压缩信息,而不是只适应某一种特定的场景。
理论听起来不错,但真正的考验在于实际表现。研究团队在多个长文本处理任务上测试了人工海马网络的能力,结果令人印象深刻。
首先来看计算效率和内存占用。研究团队用一个57,000个词元的长文本(来自PG19数据集,一个专门用于测试长文本理解的书籍集合)做了测试。结果显示,原本的Qwen2.5-3B模型在处理超过它训练时的上下文长度(32,000个词元)后,困惑度(衡量模型预测准确性的指标,越低越好)急剧上升,说明模型已经"懵了"。而配备了人工海马网络的版本,困惑度始终保持在低位,稳定流畅。同时,原版模型的GPU内存占用随着文本长度线性增长,而人工海马网络版本的内存占用在超过窗口大小后就基本保持不变了,就像我们前面说的那个图书馆,阅览室满了之后,新书都归档到固定大小的档案系统里。
更重要的是在实际任务上的表现。研究团队在LV-Eval和InfiniteBench这两个专门测试长文本理解能力的基准上进行了全面评估。这些基准包含了各种需要理解超长文本的任务,比如从128,000个词元的文档中查找特定信息、回答需要跨越整个文档的多跳问题等。
在LV-Eval的128,000词元测试集上,以Qwen2.5-3B模型为例,使用普通滑动窗口注意力(配合注意力锚点技术)的基线方法得分为4.59分。而配备了人工海马网络后,得分提升到5.88分(使用AHN-GDN变体)。更令人惊讶的是,这个得分甚至超过了使用完整注意力机制的原版模型(4.41分)。也就是说,人工海马网络不仅更高效,性能还更好。
为什么会这样呢?研究团队分析认为,这可能是因为滑动窗口机制实际上起到了一种"去噪"作用。完整注意力机制虽然保留了所有信息,但在超长文本中,很多信息其实是噪音或不相关的内容。而滑动窗口配合人工海马网络的方案,相当于强制模型聚焦于最近的关键信息,并从历史中提取最相关的要点,反而避免了被无关信息干扰。
这种优势在更大的模型上也得到了验证。在Qwen2.5-7B和14B模型上,人工海马网络同样带来了显著的性能提升。比如在7B模型上,InfiniteBench的平均得分从13.16分提升到16.93分(使用AHN-GDN),提升了近4分。而在整个过程中,计算量和内存占用都大幅降低,在128,000词元的场景下,计算量降低约40%,内存占用降低约74%。
研究团队还做了一个有趣的可视化实验,来探究人工海马网络到底"记住"了什么。他们通过分析训练时的梯度(可以理解为模型学习信号的强度),发现人工海马网络会选择性地保留某些信息。在一个数学问题的例子中,人工海马网络倾向于重点保留数学符号和数字,而对代词和特殊标记关注较少。这说明它确实学会了识别和保留重要信息,而不是无差别地压缩所有内容。
当然,任何技术都不是完美的。研究团队也坦诚地指出了人工海马网络的局限性。由于压缩记忆状态的大小是固定的,在需要精确回忆大量历史细节的任务上,人工海马网络的表现不如完整保留所有信息的方法。比如在RULER基准测试中的"针在草垛里"(Needle-in-a-Haystack)系列任务上,需要从超长文本中精确找到某个隐藏的事实,这时人工海马网络的准确率就明显低于完整注意力。这就像我们前面的图书馆比喻,如果你需要查找某本已经归档的书的某一页的某一行,仅凭管理员的摘要是不够的,你需要把原书找出来。
但研究团队也指出,这种局限性在实际应用中可能没有想象的那么严重。因为在大多数实际场景下,我们需要的是对长文本的理解、推理和总结,而不是逐字逐句的精确记忆。就像你在工作中阅读一份长报告,你需要的是抓住要点、理解趋势、得出结论,而不是记住每一个数字和每一句话。对于这类任务,人工海马网络展现出了强大的能力。
前面我们把人工海马网络比作图书管理员,但实际上研究团队实现了三种不同"风格"的管理员,它们使用的具体方法略有不同。
第一种是基于Mamba2的AHN-Mamba2。Mamba2是一种现代的循环神经网络架构,它使用一种叫"选择性状态空间模型"的技术。可以把它想象成一个特别会"遗忘"的管理员——他会根据新来的内容,智能地决定哪些旧信息应该逐渐淡忘,哪些应该保持鲜活。技术上,它通过一个"遗忘门"(由参数Δ和A控制)来实现这一点,旧的记忆状态会按指数衰减,同时新信息被编码进来。
第二种是基于DeltaNet的AHN-DN。DeltaNet使用了一种叫"delta规则"的更新机制,这是从神经科学中学习的规律启发而来的。这位管理员的工作方式更像是不断"修正"他的笔记本。每次新内容进来,他不仅会添加新信息,还会根据新内容与已有笔记的关联程度,调整笔记的组织方式。技术上,它通过计算新键(key)与旧键的内积来决定如何修正记忆状态。
第三种是基于GatedDeltaNet的AHN-GDN,这是DeltaNet的增强版本。这位管理员更加智能,他不仅会修正笔记,还会根据内容的重要性分配不同的注意力。有些信息他会重点标记,有些则只是简单记录。技术上,它引入了"门控"机制(由参数α、β、γ控制),能够动态地决定信息的重要性和保留程度。实验表明,AHN-GDN在大多数任务上表现最好,可能是因为这种门控机制让它更灵活地适应不同类型的内容。
这三种实现虽然细节不同,但核心思想是一致的:用循环的方式将流出窗口的信息压缩成固定大小的状态,并在需要时与窗口内的无损信息结合使用。研究团队的实验显示,三种实现都有效,而且都能与滑动窗口注意力无缝配合,这证明了人工海马网络这个概念框架的通用性。
值得一提的是,研究团队还提供了详细的复杂度分析。他们用数学证明,配备了人工海马网络后,模型在序列长度L上的计算复杂度从O(L²)(完整注意力)降低到O(W×L)(其中W是窗口大小),内存复杂度从O(L)降到O(W)。这意味着当处理非常长的文本时,效率提升会非常显著。比如当L=128,000而W=32,000时,理论上计算量能减少约75%,内存占用减少约75%,这与实验结果基本一致。
如果AI能够高效地处理超长文本,会给我们的生活带来什么变化?
首先是长文档理解。律师需要阅读数百页的法律文件,医生需要查阅患者的完整病历,研究人员需要综述大量的学术文献。现在的AI在处理这类任务时往往力不从心,要么截断文档只看一部分,要么需要消耗大量计算资源。有了人工海马网络,AI可以像人类专家那样,既保持对最新信息的清晰记忆,又能把握整个文档的脉络和要点。
其次是对话系统。想象你和一个AI助手进行一场持续数小时甚至数天的对话,讨论一个复杂的项目。传统的AI可能会"忘记"你们早期聊过的内容,或者因为上下文太长而反应迟缓。配备了人工海马网络的AI可以流畅地维持长时间对话,既记得刚才说了什么,也能回顾你们之前讨论的重点,就像和一个真正理解你的人交流。
还有实时信息处理。比如实时分析视频流、监控社交媒体动态、处理物联网设备的数据流。这些场景都需要AI持续处理源源不断的信息,既要关注最新的事件,又不能忘记历史趋势。人工海马网络的固定内存占用特性使得它特别适合这类"永远在线"的应用。
这种技术对于资源受限的场景尤其有价值。比如在手机、物联网设备等边缘设备上部署AI,内存和计算能力都很有限。人工海马网络能让这些设备也拥有处理长上下文的能力,而不需要把数据传到云端处理,既保护了隐私,又降低了延迟。
当然AHN还有改进的空间。当前的实现采用的是参数高效的训练方式(只训练人工海马网络部分),性能受限于基础模型的能力。如果进行全参数训练,可能会取得更好的效果,但代价是需要更多的计算资源。另外,如何更好地平衡"记忆精度"和"效率",如何让模型自己学会什么信息应该完整保留、什么信息可以压缩,这些都是值得进一步探索的方向。
这项研究的思路回归本源:向人类大脑学习,将认知科学的智慧应用到人工智能中。人脑的记忆系统经过数百万年的进化,已经达到了近乎完美的效率和灵活性。当我们真正理解并模仿这种机制时,AI就能向着更像人、更懂人的方向迈进一大步。
或许有一天,AI不仅能像人类一样思考,还能像人类一样记忆,既不忘记重要的事情,也不会被琐碎的细节压垮。而字节团队的这项研究,正是朝着这个目标迈出的坚实一步。
本文来自至顶AI实验室,一个专注于探索生成式AI前沿技术及其应用的实验室。致力于推动生成式AI在各个领域的创新与突破,挖掘其潜在的应用场景,为企业和个人提供切实可行的解决方案。
Q1:人工海马网络AHN会不会让AI变得和人脑一样聪明?
A:人工海马网络只是模仿了人脑记忆系统中将短期记忆转化为长期记忆的过程。它主要解决的是AI处理超长文本时的效率问题,让AI能够在有限的计算资源下理解和记住更多信息。但AI的"聪明"涉及很多其他方面,比如推理能力、创造力、常识理解等,这些都还需要其他技术的支持。所以说,这项技术让AI在某个特定方面更接近人脑,但距离真正的人类智能还有很长的路要走。
A:会有一定程度的信息损失,但这是设计上的权衡。人工海马网络会把滑出窗口的历史信息压缩成固定大小的"摘要",所以如果你需要回忆某个很久之前的精确细节,它可能记不清。但在实际应用中,大多数任务需要的是对长文本的整体理解和要点把握,而不是逐字逐句的完美记忆。对于这类任务,人工海马网络表现很好,甚至比保留所有信息的方法还要好,因为它能过滤噪音、聚焦重点。研究团队也提到,未来可以通过更智能的记忆管理策略,让模型自己决定哪些信息需要完整保留。
A:目前这项技术主要面向AI研究者和开发者,研究团队已经在GitHub和HuggingFace上开源了代码和模型。如果你是开发者,可以直接使用这些资源来改进自己的AI应用。对于普通用户来说,虽然不能直接"使用"这项技术,但未来很可能会在各种AI产品中间接受益。比如更流畅的AI助手、能理解长文档的智能工具、更高效的对话系统等。随着技术的成熟和普及,我们会在日常使用的AI应用中看到人工海马网络或类似技术的影子,只不过它们会隐藏在后台默默工作。
0赞好文章,需要你的鼓励
推荐文章
AI无法处理长文档?字节提出人工海马网络,让AI像人脑一样高效处理超长信息
NVIDIA研究团队开发出名为Lyra的AI系统,能够仅凭单张照片生成完整3D场景,用户可自由切换观察角度。该技术采用创新的"自蒸馏"学习方法,让视频生成模型指导3D重建模块工作。系统还支持动态4D场景生成,在多项测试中表现优异。这项技术将大大降低3D内容创作门槛,为游戏开发、电影制作、VR/AR应用等领域带来重大突破。
生物技术公司SpotitEarly开发了一种独特的居家癌症筛查方法,结合训练有素的比格犬嗅觉能力和AI技术分析人体呼气样本。该公司研究显示,18只训练犬能以94%的准确率检测出早期癌症。用户只需在家收集呼气样本并寄送至实验室,由训练犬识别癌症特异性气味,AI平台验证犬类行为。公司计划明年通过医师网络推出筛查套件,单项癌症检测约250美元。
谷歌DeepMind团队创新性地让Gemini 2.5模型在无需训练的情况下学会理解卫星多光谱图像。他们将复杂的12波段卫星数据转换为6张可理解的伪彩色图像,配以详细文字说明,使通用AI模型能够准确分析遥感数据。在多个基准测试中超越现有模型,为遥感领域AI应用开辟了全新道路。