同时处理500个任务的AI会崩成什么样？Distyl AI测试了20个主流模型原创

同时处理500个任务的AI会崩成什么样？Distyl AI测试了20个主流模型

你是否还记得2020年春晚，有个小品叫《机场姐妹花》。黄晓明扮演的乘客向金靖扮演的机场地勤，提出一个长到离谱的要求（共198个字），但被金靖一字不差的重复出来：

“一套煎饼不放葱，一套煎饼只放葱…所有黑豆豆浆都要小杯的，所有加冰的都要中杯的”

是不是有点像我们使用豆包、Kimi、ChatGPT这些AI助手的时候，都要写提示词告诉它需求，想让它完整地执行出来。

简单的提示词一句话就够，比如“今天北京天气如何”

复杂的提示词可能要写成百上千字，来充分挖掘模型的性能。比如用LangGPT写出来的结构化提示词，或者是Manus的系统提示词、Claude的系统提示词等等。

那么AI助手或者说AI模型，能像金靖一样一字不差地完成超长提示词里的所有要求吗？

这正是Distyl AI公司的四位研究员想要解答的问题。

2025年7月15日，Distyl AI的研究人员，首次系统性地测试了当今最先进AI模型在面对大量指令时的真实表现能力，提出IFScale指令遵循评测基准，并将论文发表在Arxiv上。

AI系统正越来越多地被部署在复杂环境中，需要同时满足大量不同的规则和要求。然而，目前所有的AI性能测试的研究都只关注单一或少数几个任务。

为了填补这个研究空白，团队开发了一个名为"IFScale"的全新测试基准。这个测试的核心任务很简单：让AI写一份专业的商业报告，但同时必须在报告中准确包含指定的关键词。关键词数量从10个一直增加到500个，每增加10个就测试一次。这就像要求一个记者写新闻稿，但必须自然地融入越来越多的特定词汇，既要保持文章的流畅性，又不能遗漏任何一个要求的词汇。

研究团队测试了来自七大主要AI公司的20个最先进模型，包括我们熟悉的GPT-4、Claude、Gemini等。测试过程极其严格：每个难度级别都进行5次独立测试，确保结果的可靠性。指令遵循完整排名可以在文末项目地址中查看：

同时处理500个任务的AI会崩成什么样？Distyl AI测试了20个主流模型

AI的极限比我们想象的要低得多

同时处理500个任务的AI会崩成什么样？Distyl AI测试了20个主流模型

测试结果显示，即使是表现最好的前沿AI模型，在面对500个指令时的准确率也只有68%。这意味着每三个要求中就有一个会被忽略或处理错误。更令人担忧的是，大多数模型的表现要糟糕得多。这就像一个看似能干的助手，当你只交给他一两件事时表现完美，但当任务清单变长时，他开始频繁出错、遗漏重要事项。

研究团队通过精心设计的评估方法发现了AI失败的两种主要方式。第一种是"遗漏错误"，就是完全忘记处理某个要求，就像助手直接忽略了你交代的某件事。第二种是"修改错误"，虽然记得要处理这件事，但处理得不够准确，比如你要求包含"责任"这个词，但AI写成了"负责任"。随着任务数量增加，AI越来越倾向于直接遗漏任务，而不是尝试不完美的处理。

特别值得注意的是，推理模型（比如OpenAI的o3、Google的Gemini-2.5-pro）表现明显更好。这些模型在处理问题时会进行更深入的思考，就像一个更仔细、更有条理的助手，会在行动前仔细检查任务清单。

三种截然不同的崩溃模式

同时处理500个任务的AI会崩成什么样？Distyl AI测试了20个主流模型

研究中最引人注目的发现是，不同的AI模型面对压力时表现出三种截然不同的"崩溃模式"，就像不同性格的人在面临工作压力时的不同反应。

第一种是"阈值崩溃模式"，主要出现在推理能力强的模型中。这些AI就像经验丰富的专业人士，在任务量适中时表现近乎完美，能同时处理150-250个不同要求而几乎不出错。但一旦超过他们的承受极限，性能就会急剧下降，表现变得不稳定。

第二种是"线性衰减模式"，表现为随着任务增加，性能稳步下降。采用这种模式的AI就像普通的办公室职员，面对更多任务时逐渐力不从心，但衰减过程相对可预测。例如GPT-4.1和Claude-3.7-sonnet就展现了这种特征。

第三种是"指数崩溃模式"，这类AI在面对稍多的任务时就迅速崩溃，但之后性能会稳定在一个很低的水平。这就像新入职的实习生，面对复杂任务很快就不知所措，但至少还能完成一些基础工作。有趣的是，这些快速崩溃的模型最终都稳定在大约7-15%的准确率，暗示这可能是AI处理复杂指令时的某种生存模式。

AI有明显的"偏心"问题

同时处理500个任务的AI会崩成什么样？Distyl AI测试了20个主流模型

研究揭示了一个有趣的现象：几乎所有AI都存在"首因偏差"，就像人类更容易记住清单开头的事项一样。当给AI一个长长的任务清单时，它们处理排在前面的指令时更加仔细准确，而对后面的指令则容易忽视或处理错误。

这种偏差在中等任务量（150-200个指令）时最为明显，就像一个助手在工作量刚开始让他感到压力时，会优先保证重要的事情不出错，而对不太紧急的事项敷衍了事。但当任务量达到极限时，这种偏差反而会减弱，因为此时AI已经完全不堪重负，处理所有指令都变得困难。

这个发现对实际应用有重要启示：如果你需要AI同时处理多个任务，把最重要的要求放在清单开头确实更保险。但当任务过于繁重时，这种策略的效果就会大打折扣。

速度与准确性的两难抉择

针对20个大语言模型，研究团队测试并统计了指令遵循行为的五个关键维度数据：1.准确度层次；2.具有中等难度区域的方差模式；3.显示系统性转向指令放弃的遗漏修改错误率；4.表明普遍注意力下降模式的首因效应；5.延迟特征。

同时处理500个任务的AI会崩成什么样？Distyl AI测试了20个主流模型

研究团队深入分析了AI的处理速度与准确性之间的关系。他们发现，推理模型虽然准确性更高，但处理速度明显更慢。以OpenAI的o3为例，处理10个指令只需26秒，但处理250个指令就需要近4分钟。相比之下，普通模型如Claude-3.5-haiku始终保持在10秒左右的稳定速度。

这就像精工细作的手工艺人与流水线工人的区别。手工艺人制作的产品质量更高，但速度较慢；流水线工人虽然速度快，但面对复杂任务时容易出错。对于需要实时响应的应用场景，比如客服聊天机器人，可能需要在准确性和响应速度之间做出权衡。

意外的发现和例外情况

研究中还出现了一些令人意外的结果。例如，Grok-3模型虽然没有使用复杂的推理模式，但表现却接近顶级推理模型，在500个指令的测试中达到了61.9%的准确率，且表现稳定。

另一个意外是，一些理论上应该表现更好的新模型反而不如预期。比如Qwen3这样的大型新一代模型只达到了26.9%的准确率，而某些较老的模型表现反而更好。看来，AI的能力并不总是随着模型规模或新旧程度简单递增。

对质量的潜在影响

研究团队还关注了一个重要问题：当AI忙于处理大量指令时，核心任务的质量是否会受到影响？他们发现，大多数模型在应对更多指令时，商业报告的整体质量并没有明显下降。但OpenAI的o系列模型是个例外，随着指令增加，生成的报告质量确实有所下降。

这个现象的部分原因可能是o系列模型生成的文本较短。当需要在有限的文字中包含大量关键词时，文章的自然流畅度就会受到影响，就像在一篇短文中硬塞太多信息点会让文章显得生硬拗口。

至顶AI实验室洞见

研究结果表明，当前的AI技术还无法完全胜任同时处理数百个复杂要求的工作。在这些场景中，可能需要采用分层处理的策略：先用AI处理相对简单的任务，再让人工专家负责最关键的部分。或者将复杂任务分解为多个较简单的子任务，分别交给不同的AI系统处理。

说到底，这项研究揭示了当前AI技术的一个根本局限：尽管它们在单一任务上可能表现出色，但在需要同时兼顾多个要求的复杂现实场景中，仍然存在显著的能力缺陷。

对于企业和开发者来说，这项研究提醒我们需要更加重视AI系统在复杂环境中的压力测试，而不只是关注理想条件下的性能表现。

这项研究为我们理解AI的真实能力边界提供了宝贵洞察。随着AI技术的不断发展，相信未来会有更多研究致力于提高AI在复杂多任务环境中的表现能力。

项目地址：
https://distylai.github.io/IFScale/

论文地址：
https://www.arxiv.org/abs/2507.11538

END

本文来自至顶AI实验室，一个专注于探索生成式AI前沿技术及其应用的实验室。致力于推动生成式AI在各个领域的创新与突破，挖掘其潜在的应用场景，为企业和个人提供切实可行的解决方案。

Q1: IFScale基准测试如何评估大型语言模型的指令跟随能力？

A: IFScale基准测试使用一个商业报告写作任务，包含500个关键词包含指令（如"Include the exact word {keyword}"）。指令密度从10步进增加到500，自动评估模型通过正则表达式匹配关键词是否包含在报告中。该基准测量指令密度增加时的性能下降，开源在
https://distylai.github.io/IFScale。

Q2: 大型语言模型在500个指令下的最高准确率是多少？

A: 在IFScale测试中，500指令下最佳模型的准确率为68%。gemini-2.5-pro模型达到68.9%，o3模型达到62.8%。其他模型如gpt-4o准确率降至15.4%，llama-4-scout只有6.7%。性能下降显著，模型大小和推理能力影响结果。

Q3: 大型语言模型在高指令密度下有哪些性能下降模式？

A: 性能下降分三种模式：阈值衰减（推理模型如gemini-2.5-pro保持高准确率直到临界点），线性衰减（gpt-4.1稳定下降），指数衰减（llama-4-scout快速跌至低基线）。所有模型在极端密度下收敛到均匀失败。

来源：至顶AI实验室

0赞

好文章，需要你的鼓励

同时处理500个任务的AI会崩成什么样？Distyl AI测试了20个主流模型 原创

来源：至顶AI实验室

2025

07/21

17:07

分享

点赞

AI个性化技术是否正在割裂社会现实认知

Replit"氛围编程"服务删除用户生产数据库并伪造数据

嵌入模型榜单大洗牌：谷歌登顶，阿里开源方案紧追不舍

DDN推出Infinia存储系统，声称可大幅提升AI推理速度并降低成本

DuckDuckGo推出AI图像过滤功能改善搜索体验

跨越AI价值鸿沟：远石科技与阿里云的共创之路

OpenAI实验模型在国际数学奥林匹克竞赛中获得金牌级表现

AGI和AI超级智能证明智能所需回答的问题数量

AI在商业中的正确用量

AnyCoder：基于Kimi K2的快速Web应用开发工具发布

隐私安全需三思：AI获取个人数据权限的风险与挑战

备份工具Rescuezilla基于六个Ubuntu版本全面更新

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

AWS re:Inforce：费城这天不只拼进球，还拼生成式AI安全

在欧洲之门马德里，我们再次见证了SAP激活企业增长的“飞轮”

IEEE专家委员胡凝：消解AI幻觉“阴影”，洞见“超级个体”价值锚点

生成式AI催生新物种，SaaS CRM掀起下半场变革战

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

同时处理500个任务的AI会崩成什么样？Distyl AI测试了20个主流模型原创