上下文腐烂:当百万token成为AI模型的阿喀琉斯之踵 原创

上下文腐烂:当百万token成为AI模型的阿喀琉斯之踵

2025年7月,向量数据库公司Chroma发布了一份技术报告《Context Rot: How Increasing Input Tokens Impacts LLM Performance》,直接挑战了业界对长上下文LLM性能的乐观假设。这份报告由Chroma的研究员Kelly Hong、联合创始人Anton Troynikov和CEO Jeff Huber联合撰写,对18款主流LLM进行了系统性评估。

上下文腐烂:当百万token成为AI模型的阿喀琉斯之踵
现在AI模型竞赛白热化,各大厂商纷纷推出支持百万甚至千万token的长上下文模型,从Gemini 1.5 Pro的1M上下文窗口,到GPT 4.1的1M窗口,再到Llama 4的10M窗口。业界普遍认为,既然这些模型在经典的"大海捞针"(Needle in a Haystack,NIAH)基准测试中表现优秀,长上下文问题就基本解决了。
上下文腐烂:当百万token成为AI模型的阿喀琉斯之踵
然而,Chroma的这项研究像是给狂欢的AI社区泼了一盆冷水。他们发现,即使是最先进的GPT 4.1、Claude 4、Gemini 2.5和Qwen3等模型,在处理长输入时都会出现显著的性能衰减。这种衰减甚至发生在最简单的任务上,比如复制一串重复的单词。
作为向量数据库领域的重要玩家,Chroma在AI检索和上下文处理方面有着深厚的技术积累。他们这次选择聚焦长上下文性能问题,既有商业考量(毕竟他们的产品要与这些LLM集成),也体现了对AI基础能力边界的严肃思考。这份报告的意义在于,它用严格控制的实验揭示了一个被广泛忽视的问题:长上下文不是免费的午餐,而是一个需要谨慎对待的技术挑战。
理论基础:长上下文的美丽谎言
LLM的基本假设听起来很美好:模型应该能够均匀处理上下文,也就是说,处理第10,000个token应该和处理第100个token一样可靠。这种假设支撑着整个长上下文叙事,既然模型有百万token的容量,那就应该能完美利用这些容量。
然而现实并非如此。Chroma团队指出,虽然最新模型在广泛采用的基准测试(如NIAH)中取得了近乎完美的分数,但这些测试本质上只是简单的检索任务。在NIAH中,一个已知的句子("针")被放置在大量无关文本("大海")中,模型被要求检索出来。这主要考验的是直接词汇匹配能力,可能无法代表灵活的、语义导向的任务。
研究团队特别强调了一个关键问题:传统评估往往将任务复杂度与输入长度混淆在一起。随着输入变长,任务往往也变得更复杂,这使得很难区分性能下降是由于输入长度本身,还是由于任务固有的难度增加。为了解决这个问题,他们设计了一系列控制实验,保持任务复杂度不变,只改变输入长度。
NoLiMa基准测试已经证明,非词汇匹配对模型来说是个挑战。该测试使用需要模型推断潜在关联的“问题-针”对,例如:问题"哪个角色去过赫尔辛基?"对应针"实际上,Yuki住在Kiasma博物馆附近。"要回答这个问题,模型首先必须知道Kiasma博物馆位于赫尔辛基,然后建立这种潜在的关联链接。
有趣的是,NoLiMa中72.4%的问题-针对需要这种外部知识,使得这个基准更像是测试模型如何同时处理两个任务,而不是纯粹的非词汇匹配能力。测试非词汇匹配影响的独立研究仍然很少,而且"词汇"与"非词汇"的二元区分过于简化了现实世界问答的复杂性。
实验设计:四个维度的深度解析
上下文腐烂:当百万token成为AI模型的阿喀琉斯之踵
Chroma团队设计了四个精心控制的实验来研究这些因素的影响,每个实验都有其独特的洞察。
问题-针(Question-Needle)相似度实验
他们使用余弦相似度计算问题-针对之间的相似性,为了保证鲁棒性,在五个嵌入模型上取平均值:text-embedding-3-small、text-embedding-3-large、jina-embeddings-v3、voyage-3-large和all-MiniLM L6 v2。实验测量随着输入长度增加,模型性能如何受到问题-针相似度的影响。
干扰项(Distractor)影响实验
研究团队区分了两个重要概念:干扰项是与针话题相关但不完全回答问题的内容;无关内容则完全与针和问题无关。他们使用高相似度的问题-针对,手工编写了四个干扰项,然后测试三种条件:仅针(基线)、针+单个干扰项、针+四个干扰项。
针-大海(Needle-Haystack)相似度实验
这个实验探索了一个经常被忽视的假设:大海内容本身是否会影响任务性能?如果模型真的对大海内容不敏感,那么改变大海内容(如话题或叙事流程)应该不会影响结果。为了测试这一点,他们使用了两个主题截然不同的大海:Paul Graham散文和arXiv论文,并为每个编写了相应的针。
大海(Haystack)结构实验
最后一个实验考察了结构模式的影响。典型的NIAH设置中,大海是连贯文本的串联,每个都有自己的逻辑思路流程。研究团队比较了两种条件:保持每个摘录内思想自然流程的原始版本,以及将句子随机重新排序以保持相同整体话题但无逻辑连续性的打乱版本。
每个实验都在8种不同输入长度和11个针位置上进行测试,确保了结果的统计显著性。
实验结果:令人意外的发现
问题-针相似度的关键影响
实验结果显示了一个清晰的模式:低相似度问题-针对的性能下降更快。在短输入长度下,模型即使在低相似度对上也表现良好,这在高性能和中等性能模型中最为明显,证明这些模型有能力在所有问题-针对上成功完成任务。
观察到的长输入下性能衰减并非由于问题-针配对的内在难度造成。通过保持问题-针对固定而仅改变无关内容的数量,研究团队成功地将输入大小隔离为性能下降的主要因素。他们还测试了针位置是否影响性能,在11个针位置上的测试显示,对于这个特定的NIAH任务,没有显著的性能变化。
干扰项的非均匀冲击
虽然已有研究证明干扰项会降低模型性能且具有非均匀影响,但新模型声称能可靠处理任何干扰项。然而实验揭示,随着输入长度增长,干扰项的影响及其非均匀性在所有模型(包括最新的顶级模型)中都会放大。
即使单个干扰项也会相对于基线(仅针)降低性能,添加四个干扰项会进一步加剧这种衰减。更有趣的是,干扰项的影响并不均匀。在arXiv大海和PG散文针组合中,可以看到干扰项3(红色)相对于其他干扰项造成更大的性能下降。
失败分析还揭示了模型特定的处理歧义差异。Claude模型始终表现出最低的幻觉率,特别是Claude Sonnet 4和Opus 4特别保守,在不确定时倾向于弃权,明确说明找不到答案。相比之下,GPT模型显示出最高的幻觉率,在存在干扰项时经常生成自信但错误的回应。
针-大海相似度的意外结果
在长上下文任务中,无关上下文通常被视为扩展输入长度的中性占位符。通常假设这种无关上下文的内容并不重要,只要不直接干扰任务即可。但研究发现,针-大海相似度对模型性能有非均匀影响。
在Paul Graham散文大海中,PG散文针的平均针-大海相似度得分为0.529(变化0.101),而arXiv针平均为0.368(变化0.111)。相反,在arXiv大海中,arXiv针平均相似度为0.654(变化0.0858),而PG散文针得分较低,为0.394(变化0.105)。
实验结果显示,在Paul Graham散文大海中,arXiv针相对于PG散文针表现显著更好;换句话说,当针在语义上不与大海融合时,模型表现更好。但在arXiv大海中,arXiv和PG散文针之间只观察到最小的性能差异。
大海结构的反直觉发现
最令人意外的发现可能是关于大海结构的影响。直觉上,如果大海由连贯散文组成,随机插入的针可能会破坏思想的逻辑流程,使其更加引人注目。相反,在随机排序句子的打乱大海中,针可能更容易融入,因为整体上下文缺乏结构。
然而,研究发现结构连贯性始终损害模型性能。虽然看起来违反直觉,但当大海保持逻辑思想流程时,模型表现更差。打乱大海并移除局部连贯性始终改善性能。这个发现在所有18个模型和针-大海配置中都观察到了一致的模式。
这些结果可能对模型内部处理有一些影响:输入的结构模式可能影响注意力机制的应用,特别是随着输入长度增加。虽然超出了本报告的范围,但这指向了解释性研究中关于注意力如何受输入结构影响的潜在方向。
现实场景测试:LongMemEval的警示
上下文腐烂:当百万token成为AI模型的阿喀琉斯之踵
为了在更现实的环境中评估这些模型,研究团队使用了LongMemEval,这是一个用于对话问答的长上下文基准测试。
在聊天助手中使用长输入是维持后续聊天相关历史的常见方法。将"记忆"纳入聊天助手的一个简单方法是将完整的聊天历史包含在后续聊天的提示中。这要求模型执行两个通常在一次调用中执行的任务:找到对话历史的相关部分(检索),然后以对传入查询有用的方式合成它们(推理)。
研究团队系统性地测试了通过两个条件增加这个额外步骤随输入长度增加的效果:仅包含相关部分的聚焦输入(模型只需进行简单推理),以及使用包含无关上下文的完整113k token LongMemEval输入的完整输入(模型必须在长上下文中执行检索加上推理)。
结果令人深思。所有模型在聚焦提示上的性能都显著高于完整提示。Claude模型在聚焦和完整提示性能之间表现出最明显的差距,这种差异主要由歧义引起的弃权驱动,导致模型不确定性,类似于这个模型家族在NIAH中处理干扰项的行为。
一个典型例子是Claude Sonnet 4在包含日期的完整提示上的表现。面对"我参加园艺工作坊的那天和我种植番茄幼苗的那天之间过了多少天?"这个问题时,正确答案是6天(7天也可接受),但模型回答:"我无法确定园艺工作坊和种植番茄幼苗之间的天数,因为聊天历史中没有提供这些事件的具体日期。"然而,日期信息确实存在于提示中。
重复单词任务:最简单任务的崩溃
也许最令人震惊的发现来自重复单词实验。研究团队设计了一个控制任务,模型必须复制重复单词序列,在特定位置插入一个独特单词。提示明确指示模型精确再现输入文本。
以下是一个示例提示:"简单复制以下文本,输出完全相同的文本:apple apple apple apple apples apple apple apple apple apple apple apple apple apple apple apple apple apple apple apple apple apple apple apple apple"
对于给定的词汇组合,他们创建了1090种上下文长度和独特词索引的变化:单词数量从25到10,000不等,覆盖每个可能的位置。他们测试了多种词汇组合,包括"apple"/"apples"、"golden"/"Golden"、"orange"/"run"等。
结果显示,随着上下文长度增加,所有模型的性能都持续衰减。这个实验中,输入长度与输出长度直接成比例,与之前输出长度相对固定在较短长度的测试不同。
Claude家族的表现
上下文腐烂:当百万token成为AI模型的阿喀琉斯之踵
有趣的是,Sonnet 3.5在其最大输出token计数8192之前超越了更新的Claude模型。Opus 4虽然表现出最慢的衰减率,但也是这个家族中唯一拒绝任务的模型(2.89%的尝试)。
Opus 4的一个常见模式是模型在决定是否继续之前先进行观察,然后尝试或不尝试。这种行为通常从2500个单词开始出现。还有一些情况下,Opus 4简单地拒绝尝试任务,原因包括:生成受版权保护材料的风险,或重复序列中的不一致性。
GPT家族的独特模式
上下文腐烂:当百万token成为AI模型的阿喀琉斯之踵
GPT模型家族中,4.1的拒绝率为2.55%,这些拒绝通常从2500个单词开始,回应诸如"抱歉,我无法帮助处理那个"。
GPT 4 turbo表现出有趣的局部性能峰值,在500个单词附近达到。在50到250个单词之间,模型倾向于过度生成(重复常见单词直到输出限制),但在500个单词时在词数上变得更准确。然而,超过这个点,它开始生成不足。
GPT 4.1 mini会尝试所有任务,但有时为"Golden Gate Bridge"/"Golden Gate Park"组合生成随机单词,输出"Golden Golden"和"Gate Gate"等重复词汇,这些在输入中并不存在。
Gemini家族的随机性
上下文腐烂:当百万token成为AI模型的阿喀琉斯之踵
Gemini家族中,除了Gemini 2.5 Flash在"apples"/"apple"上的表现外,所有词汇组合和模型都观察到生成了输入中不存在的随机单词。这通常从500-750个单词开始,Gemini 2.5 Pro显示出最大的变异性。
Qwen家族的奇特行为
上下文腐烂:当百万token成为AI模型的阿喀琉斯之踵
只有Qwen3 8B出现了不尝试的情况,占任务的4.21%。对于这个模型,从大约5000个单词开始观察到随机输出,包括一些令人费解的内容,如:"好吧,我要休息一下。让我知道,我没心情。我需要放松一下。我要去某个地方呼吸新鲜空气。也许去海滩,或者就在某个地方放松一下。"
性能分析:位置准确性与词数差异
研究团队还测量了位置准确性:独特单词是否出现在正确位置。当独特单词放置在序列开头附近时准确性最高,特别是随着输入长度增加。这个发现在所有模型家族中都很一致,表明模型在处理序列早期内容时更可靠。
随着上下文长度增加,模型经常生成重复单词直到达到输出token限制。研究团队通过计算输入和输出单词计数之间的差异来量化这一点:正值表示模型生成不足,负值表示模型过度生成。
这些模式揭示了模型在长序列生成中的系统性偏差,可能与注意力机制在处理长序列时的局限性有关。
技术细节:实验配置与评估方法
研究团队在实验设计上极其严格。每个模型都在其最大上下文窗口内进行评估,使用temperature=0设置,除非该设置不兼容或明确不建议使用。对于Qwen模型,他们应用YaRN方法将上下文从32,768扩展到131,072个token。
对于支持思考模式的模型,他们同时包含了标准模式和"思考模式"。模型输出使用对齐的GPT 4.1评判器评估,该评判器与人类判断的一致性达到99%。
值得注意的是,研究团队遇到了模型拒绝尝试任务的罕见情况——在194,480次LLM调用中仅69次,占0.035%。例如,Claude Opus 4有时可能输出为空,停止原因为"拒绝"。
LLM评判器的校准过程也很严格:手动标记模型输出子集,使用GPT 4.1标记相同子集,计算一致性得分,基于错位检查迭代提示,重复直到一致性得分超过0.99。
模型特异性行为:家族差异显现
不同模型家族在处理长上下文时表现出了鲜明的个性差异。
Claude家族:保守主义的代价
Claude模型表现出最明显的保守行为。在LongMemEval测试中,Claude模型在聚焦和完整提示性能之间表现出最明显的差距。这种差异主要由歧义引起的弃权驱动,导致模型不确定性。这种行为在Claude Opus 4和Sonnet 4中最为明显,它们在歧义下特别保守,导致相对于较老Claude模型在完整提示上的性能较低。
有趣的是,在某些情况下,这种保守性实际上是有益的。Claude模型的低幻觉率使其在处理不确定信息时更可靠,即使这意味着有时会拒绝回答。
GPT家族:自信的危险
GPT模型显示出最高的幻觉率,在存在干扰项时经常生成自信但错误的回应。这种过度自信可能在某些应用中是危险的,特别是当错误答案被高度确信地呈现时。
Gemini家族:变异性挑战
Gemini模型表现出相当大的输出变异性,特别是在长上下文条件下。这种不可预测性可能使其在需要一致输出的应用中具有挑战性。
Qwen家族:意外的创造性
Qwen模型,特别是8B版本,在长上下文条件下有时会产生出人意料的创造性输出,甚至在要求精确复制的任务中也是如此。这种"创造性"虽然有趣,但在需要精确性的任务中是有问题的。
问题类型分析:任务复杂度的层次
在非思考模式下,模型通常在知识更新任务上表现最好,其次是多会话任务,然后是时间推理任务,无论是聚焦提示还是完整提示都是如此。然而,当启用思考功能时,这个排名会改变为:知识更新、时间推理、然后多会话。
这种排名的变化表明,推理能力的增加对不同类型任务的帮助是不均等的。时间推理任务似乎从额外的思考时间中受益更多,而多会话任务可能需要不同类型的处理策略。
至顶AI实验室洞见
这份Chroma报告算是给过热的长上下文炒作降了降温。当整个AI圈都在比拼谁家的上下文窗口更大时,这帮人冷静地告诉我们:尺寸有时候没那么重要。
最有意思的是那个重复单词实验。连最简单的“复制粘贴”任务都能把这些百亿参数的巨无霸搞崩溃,真是既好笑又令人深思。Claude Opus 4还会担心自己是否在复制受版权保护的材料,一串"apple apple apple",这保守劲儿简直让人哭笑不得。
不过话说回来,Claude家族的保守主义在某种程度上是件好事。与其像GPT那样信心满满地胡编乱造,不如老实承认"我不知道"。在AI安全越来越重要的今天,这种谨慎态度反而更珍贵。
大海结构的发现也很违反直觉。逻辑连贯的文本竟然比乱序的文本更难处理?这让我想起了人类阅读时的注意力机制,有时候结构化的内容反而会产生预期偏差,而随机内容让注意力更加均匀分布。
最重要的是,上下文工程将成为下一个重要赛道。不是光有大上下文窗口就能解决问题,怎么组织、呈现信息可能比信息本身更重要。这给RAG(检索增强生成)系统的设计者们提了个醒:别只顾着塞更多内容进去,先想想怎么塞得更聪明。
从商业角度看,这份报告对那些基于"我有更长上下文"做营销的厂商来说不是好消息。用户可能很快会发现,标称的百万token容量在实际使用中水分不少。反倒是那些专注于上下文质量而非数量的公司可能会在下一轮竞争中占得先机。
总之,长上下文这条路还有很长要走。Chroma这份报告算是给AI社区提了个醒:别光顾着造更大的车,先把现有的车开稳了再说。
报告地址:https://research.trychroma.com/context-rot
END
本文来自至顶AI实验室,一个专注于探索生成式AI前沿技术及其应用的实验室。致力于推动生成式AI在各个领域的创新与突破,挖掘其潜在的应用场景,为企业和个人提供切实可行的解决方案。

Q&A:

Q1:Chroma报告如何挑战长上下文LLM的性能假设?

A: Chroma的报告直接挑战了业界对长上下文LLM性能的乐观看法。报告发现,即使是最先进的模型如GPT4.1、Claude4、Gemini2.5和Qwen3,在处理长输入时都会出现显著性能衰减。这种衰减发生在简单任务上,如复制一串重复单词序列。实验证明,输入长度增加本身就会导致性能下降,与任务复杂度无关。

Q2: 大海结构实验发现了什么意外结果?

答案: 大海结构实验比较了逻辑连贯文本和打乱顺序文本对LLM性能的影响。结果发现,当大海保持逻辑思想流程时,模型表现更差。相反,打乱大海移除局部连贯性后,性能始终改善。这在所有18个测试模型中观察到一致模式,表明输入结构模式影响注意力机制。

Q3:Claude家族和GPT家族在处理长上下文时有何主要区别?

A: Claude家族表现出保守行为,在不确定时倾向于弃权回答,导致低幻觉率,如ClaudeSonnet4在歧义下明确说明找不到答案。相比之下,GPT家族显示出高幻觉率,经常生成自信但错误的回应,尤其在有干扰项时。Claude的保守性在AI安全场景有益,而GPT的过度自信可能带来风险。

来源:至顶AI实验室

0赞

好文章,需要你的鼓励

2025

08/28

16:44

分享

点赞