AI推理能力被高估，阿里发现模型推理测试题目本身就泄题了原创

AI推理能力被高估，阿里发现模型推理测试题目本身就泄题了

想象一下，你是一位侦探，接到一个看似简单的案件：找出凯恩·科恩斯的父亲是谁。如果有人直接告诉你"先找凯恩的哥哥，再找哥哥的继母，然后找继母的丈夫"，你只需要按图索骥就能破案。但如果没有任何提示，你必须自己摸索该调查谁、该问什么问题、该沿着哪条线索前进，这个案件的难度会骤然飙升。这正是当今最先进的AI系统面临的真正挑战。

2025年10月，由阿里通义实验室等机构共同完成的研究，首次系统性地揭示了一个被长期忽视的问题：当前用于评估AI推理能力的测试题目本身就"泄题"了，导致我们一直在高估AI的真实推理能力。更重要的是，他们创建了一个名为WebDetective的全新测试系统，这是第一个真正不给任何提示、要求AI完全自主发现推理路径的多跳问答基准测试。代码已在Github开源。

研究团队评估了包括OpenAI的GPT-5和o3-Pro、Anthropic的Claude-4系列、Google的Gemini-2.5、xAI的Grok-4在内的25个最先进AI模型。意外的是，即使是表现最好的模型也只达到了56%的准确率，而且几乎所有模型都展现出一个共同的致命弱点：它们在拥有足够证据的情况下仍然无法正确综合信息，而在证据不足时又几乎从不拒绝回答。这项研究不仅揭示了当前AI系统的根本性缺陷，还提供了一个诊断框架来精确定位失败的原因，为未来开发真正具有自主推理能力的AI系统指明了方向。

当前AI搜索测试的"作弊"现象

让我们继续用侦探破案来理解问题的本质。假设你要考核一位侦探的破案能力，你会怎么出题？如果你的考题是这样的："找出那位在5AA电台工作、曾是足球运动员、比妻子大至少20岁、妻子曾是2007年工党候选人的主持人"，这看起来像是一道推理题，但实际上你已经把答案的所有特征都告诉侦探了。这位侦探只需要拿着这份"详细画像"去匹配，就像拿着拼图的完整图案去找对应的拼块一样简单。这不是在考验推理能力，而是在考验匹配能力。

研究团队发现，目前被广泛使用的多跳问答测试系统正是犯了这样的错误。他们将这种问题分为两类"泄题"方式。第一种叫做"路径提示"，就像有人问你"凯恩·科恩斯的哥哥的继母的丈夫是谁"这样的问题。这个问题表面上需要多步推理，但实际上已经把推理路径明明白白地告诉你了：第一步找哥哥，第二步找继母，第三步找丈夫。AI只需要按照这个明确的步骤执行就行，根本不需要自己思考"我应该从哪里开始调查"或"下一步该查什么"。

第二种"泄题"方式更隐蔽，研究团队称之为"规范提示"。想象你要找一个人,但不直接说名字，而是给出一大堆特征。比如"找那个在5AA工作的前足球运动员主持人，他比妻子大20多岁，妻子参加过2007年工党竞选"。这些特征组合起来就像一个唯一的身份指纹，你只需要找到同时满足所有这些条件的人就行了。这同样不是真正的推理，而是约束满足问题——就像填数独游戏，虽然需要一些逻辑，但本质上是在一个已经被严格限定的范围内做筛选。

研究团队指出，这两种"泄题"方式的共同问题是，它们绕过了推理中最核心也最困难的部分：自主发现哪些信息是重要的，主动探索可能的推理方向，以及在没有指引的情况下构建推理路径。这就像一位侦探接到案件时，已经有人告诉他"去调查这三个人，按这个顺序"，或者给他一张嫌疑人的详细特征清单。真正的侦探工作应该是：拿到一个案件后，自己判断从哪里开始调查，自己决定问什么问题，自己摸索哪条线索更有价值，在成百上千条可能的调查方向中找到那条通往真相的路径。

更糟糕的是，即使在这些已经"泄题"的测试中，研究人员发现评估方式也存在严重问题。传统的评估只看最终结果——答对了还是答错了，就像只看侦探最后有没有抓到罪犯，而完全不关心这个过程中发生了什么。一个侦探可能因为运气好随便猜对了答案，另一个侦探可能做了大量调查但在最后一步失误了，还有一个侦探可能根本没开始调查就直接放弃了，但在传统评估中，他们都只是简单地被记为"失败"。这种粗糙的评估方式让我们完全无法理解AI系统到底在哪个环节出了问题，是搜索能力不足、综合能力欠缺，还是过度自信导致的胡乱猜测。

WebDetective：一场真正的推理考验

为了解决这些问题，研究团队创建了WebDetective系统，这是第一个真正"不泄题"的多跳推理测试。他们的问题设计哲学非常简单：只问本质问题，不给任何额外提示。比如直接问"凯恩·科恩斯的父亲是谁"，而不是告诉你应该先找谁、再找谁，也不给你一大堆特征让你去匹配。就像一位警长走进侦探办公室，只说"查出这个案子的真相"，然后转身离开，剩下的一切都要侦探自己想办法。

但问题设计只是第一步。研究团队很快意识到，即使问题本身不泄题，如果调查环境不加控制，聪明的AI还是可能找到"捷径"。想象一下，如果凯恩·科恩斯和他父亲格雷厄姆·科恩斯的名字经常同时出现在各种新闻报道中，AI可能直接通过名字共现就猜出答案，完全绕过了真正的推理过程。或者，如果中间人物查德·科恩斯（凯恩的哥哥）的信息在网上随处可见，AI可能通过直接搜索就跳过了必要的推理步骤。这就像一个侦探案件中，如果罪犯的照片到处张贴，侦探就不需要真正推理了。

为了堵住这些"捷径"，研究团队设计了一个精妙的"受控沙盒"环境，这是WebDetective的核心创新。他们从维基百科中精心构建了一个特殊版本，在这个版本中，信息的可见性被精确控制。对于推理链中的每个中间环节，相关信息只在特定的地方可见。继续用凯恩的例子来说明：查德·科恩斯（哥哥）的信息只出现在凯恩的页面上，妮可·科恩斯（继母）的信息只出现在查德的页面上，格雷厄姆·科恩斯（父亲/答案）的信息只出现在妮可的页面上。

这种设计的巧妙之处在于，它强制AI必须按照推理链的顺序逐步探索。就像一个密室逃脱游戏，你必须先在第一个房间找到钥匙，才能打开通往第二个房间的门，然后在第二个房间找到下一把钥匙，依此类推。AI如果没有访问凯恩的页面，就绝对不可能发现查德；如果没有访问查德的页面，就绝对不可能发现妮可；如果没有访问妮可的页面，就绝对不可能知道答案是格雷厄姆。这种设计彻底消除了"捷径"的可能性，确保任何成功的答案都必然来自完整的推理过程。

更重要的是，这种受控环境让研究团队能够精确追踪AI的每一步行动。他们可以清楚地看到AI访问了哪些页面、发现了哪些信息、在推理链上走到了哪一步。这就像给侦探戴上了一个记录仪，能够完整回放整个调查过程。通过这种精确追踪，研究团队可以明确判断：如果AI失败了，到底是因为没有找到必要的信息（搜索失败），还是找到了信息但没能正确综合（综合失败），或者是在信息不足时应该说"不知道"却硬要猜一个答案（过度自信）。

研究团队从维基百科的问答数据集出发，使用广度优先搜索在超链接图中寻找从起始实体到答案实体的最短路径。但他们深知，并不是所有路径都有意义。比如，两个人可能通过大学和共同同事建立联系，但这条路径对于询问家庭关系的问题完全无关。因此，他们使用强大的语言模型（Qwen-3-235B）进行三重验证：首先确认答案无法仅从AI的参数记忆中直接获得；其次确认完整的证据链确实能推导出答案；最后逐一检验每一条证据是否都是必需的，移除任何一条是否会导致推理失败。

为了确保质量，研究团队还进行了人工验证。两位具有自然语言处理专业知识的研究人员独立审查每个问题，仔细检查推理链的逻辑性、证据的必要性，以及问题措辞中是否包含任何隐藏提示。在大约450个机器验证的问题中，只有200个（约44%）通过了严格的人工审查，最终构成了WebDetective基准测试。这个数据集覆盖了2到6跳的推理链，其中大部分是2跳（55%）和3跳（31%）的问题，同时保留了一些4跳以上的挑战性问题（14%）。

但研究团队的创新还不止于此。他们意识到，传统的"对还是错"的二元评估完全无法反映AI的真实能力。于是他们开发了一个多维度的诊断框架，就像医生不仅要知道病人生病了，还要诊断出是哪个器官出了什么问题。这个框架首先将"知识获取"和"答案生成"分开评估。知识获取评估AI是否获得了所有必要的信息，这些信息可能来自搜索，也可能来自AI的训练记忆。答案生成则评估AI在拥有足够信息的情况下，是否能正确综合这些信息给出答案，或者在信息不足时是否能恰当地拒绝回答。

这种分离评估揭示了一个关键洞察：同样的失败可能来自完全不同的原因。有的AI系统搜索能力很强，能找到所有必要的信息，但就是无法正确综合这些信息得出答案，就像一个侦探收集了所有线索却无法拼凑出真相。有的AI系统在信息不足时仍然固执地给出答案，就像一个过度自信的侦探在证据不足时仍然坚持自己的猜测。还有的AI系统即使掌握了足够的信息也选择拒绝回答，就像一个过度谨慎的侦探不敢下结论。通过这个诊断框架，研究团队能够精确定位每个AI系统的强项和弱点，为改进指明具体方向。

25个顶尖AI的"考试成绩单"

当研究团队用WebDetective测试25个最先进的AI模型时，结果令人震惊。即使是表现最好的OpenAI o3-Pro模型，也只达到了56%的准确率，而许多其他顶级模型的表现甚至低于40%。这个结果就像给一群号称最优秀的侦探出了一道真正的推理题，结果发现他们过去的破案成功大多是因为有人提前泄露了关键信息。一旦失去这些提示，他们的真实推理能力就暴露无遗。

更有意思的是，研究团队发现搜索能力和最终准确率之间存在明显的脱节。GPT-5模型的搜索得分高达80%，意味着它能找到80%问题所需的所有证据，但它的生成得分却只有23.21%，最终准确率也只有50.5%。这就像一个侦探非常擅长收集线索，案件现场的每个角落都会仔细检查，所有证人都会认真访谈，笔记本里记满了各种信息，但当需要把这些信息拼起来得出结论时，他却常常理不清头绪，或者被不相关的信息干扰，无法抓住真正的关键。

相比之下，Grok-4模型展现出了最好的平衡能力。虽然它的搜索得分（77.5%）略低于GPT-5，但它的生成得分达到了34.71%，是所有模型中最高的，最终准确率也达到了50.5%。这说明Grok-4不仅能找到信息，还能更好地理解这些信息之间的关联，从零散的线索中提炼出答案。就像一个经验丰富的侦探，虽然不一定收集最多的线索，但能够准确识别哪些线索真正重要，哪些只是干扰。

但所有模型都暴露出一个共同的致命弱点：拒绝能力严重不足。当AI缺乏足够证据时，理想的行为应该是坦诚地说"我不知道"或"信息不足，无法回答"。然而，研究发现最好的拒绝F1得分也只有53.95%（来自Doubao-1.6-Flash模型），而许多顶级模型的拒绝能力更是糟糕得令人吃惊。GPT-5的拒绝F1只有8.89%，o3-Pro只有9.37%，就连以严谨著称的Claude-Opus-4.1也只达到28.57%。这意味着这些AI在证据不足时仍然会强行给出答案，就像一个过度自信的侦探，即使线索不够也要给出一个"答案"，结果往往是错误的猜测。

研究团队进一步分析发现，模型们可以被归类为六种不同的"性格类型"。有一类被称为"强大但过度自信"，包括GPT-5、o3-Pro和o3，它们通过强大的搜索和综合能力达到50-56%的最高准确率，但拒绝率低于10%，即使面对证据不足的情况也要硬着头皮给答案，宁可冒着犯错的风险也不愿承认不知道。相比之下，"校准精英"类型如Grok-4和Claude-Opus-4.1虽然准确率略低（44-51%），但保持了29-38%的适度拒绝率，展现出更好的自我认知，知道何时该保守一些。

第三类是"综合瓶颈"型，最典型的是Qwen3-235B-Thinking模型。这类模型能够达到72.5%的高知识充分性，意味着它们找到了大量必要信息，但知识利用率却低于25%，惨不忍睹。就像一个侦探的笔记本里记满了线索，但他就是无法把这些线索串联起来，无法从中推导出结论。更糟糕的是，它们的低拒绝率表明它们甚至意识不到自己的这个缺陷，仍然会试图给出答案。

还有一类"保守中庸"型，如Claude-Sonnet-4-Think和GLM-4.5-Inner，它们在所有指标上都表现平平（知识充分性63-68%，知识利用率31-44%，拒绝率中等）。这类模型就像一个过于谨慎的侦探，即使掌握了足够的线索也不敢轻易下结论，害怕出错反而错过了许多本可以解决的案子。

有趣的是，研究团队还发现了两种在能力较弱但自我认知截然不同的模型类型。"有自知之明的弱者"如Doubao系列和Gemini-2.5-Flash-Think，它们的能力确实有限，但拒绝率高达40-54%，说明它们清楚地知道自己的局限性，不会不懂装懂。相反，"弱而困惑"型如o4-Mini和DeepSeek-R1，能力同样有限但缺乏自我认知，只有16-18%的知识利用率却仍然频繁尝试回答，结果当然是一塌糊涂。

研究团队特别关注了即使模型获得了所有必要证据仍然失败的情况，他们称之为"知识退化"。通过精巧的实验设计，他们区分出了两种不同的退化类型。第一种叫"知识遗忘"：AI在单独回答每个子问题时都能给出正确答案（比如问"凯恩的哥哥是谁"时能回答"查德"），但当需要在完整推理过程中应用这些知识时却忘记了，无法把各个片段串联起来。第二种叫"被带偏"：当AI在干净的证据环境下能够正确推理，但在实际搜索过程中积累了大量噪音（失败的尝试、无关的页面、探索的弯路）后，这些噪音干扰了它的判断，导致无法得出原本能够得出的正确答案。

统计数据显示，"知识遗忘"是更普遍的问题。在所有模型中，遗忘率比被带偏率平均高出10.35个百分点。这意味着AI系统的主要问题不是被噪音误导，而是无法在复杂推理过程中有效整合和应用它们本来知道的信息。表现最好的模型如Grok-4和o3-Pro，它们的遗忘率和被带偏率都很低（都在21-28%之间），这正是它们能够达到最高准确率的关键原因。相反，表现最差的GPT-OSS-120B的遗忘率高达100%，意味着即使它通过搜索获得了必要证据，它也完全无法在答题时应用这些证据。

为了验证WebDetective基准测试的稳健性，研究团队还进行了测试时扩展实验，就是给AI提供更多的计算资源和时间来解题。他们测试了两种扩展方式：一是给Claude-Opus-4.1更大的上下文窗口（从8K到32K tokens），二是让他们自己开发的EvidenceLoop系统进行更广泛的探索（增加并行搜索的数量和迭代轮次）。结果发现，这些扩展带来的提升微乎其微。Claude-Opus-4.1的生成得分停留在34%左右，准确率停留在50%左右，搜索得分只提高了不到1%。这说明WebDetective真正考察的是根本性的推理能力，而不是可以通过简单增加资源就能提升的表面能力，就像一个侦探如果缺乏推理天赋，给他再多时间也破不了案。

EvidenceLoop：一个尝试性的解决方案

面对WebDetective揭示的这些严峻挑战，研究团队并没有止步于诊断问题，而是开发了一个名为EvidenceLoop的创新工作流系统，作为解决这些问题的基线尝试。这个系统的设计哲学是：如果AI在无提示推理中表现不佳，那是因为它们缺乏结构化的证据管理、系统的验证机制和迭代改进能力。就像为侦探配备一套完整的办案工具和流程，而不是让他们仅凭直觉瞎摸索。

EvidenceLoop的核心是一个"迭代精炼"机制。想象一个侦探团队在破案，他们不是一个人单打独斗，而是采用这样的策略：每一轮，派出多个侦探（系统中设定为3个）同时从不同角度探查，每个侦探都有一定的行动预算。一轮探查结束后，团队聚在一起开会，有专门的分析员负责从每个侦探的报告中提取关键发现和有价值的线索，然后由总协调员把这些分散的发现整合成一份精炼的案情摘要。下一轮，新派出的侦探就能基于这份摘要继续深入，而不是从零开始。这样经过多轮迭代（系统默认是3轮），团队能够在广度探索和深度挖掘之间找到平衡，既不会漏掉重要线索，也不会被无关信息淹没。

这种设计的巧妙之处在于解决了AI推理中的一个核心矛盾：既需要广泛探索多种可能性，又不能让上下文爆炸式增长导致信息过载。早期的探索可能涉及体育联系、地理位置、家庭关系等多个方向，但提取和聚合过程能够识别出哪些方向最有希望，把有价值的发现保留下来，把探索死胡同的过程丢弃掉。这就像一个侦探团队虽然尝试了很多调查方向，但案卷上只记录真正有用的线索，而不是把所有失败的尝试都堆积在一起。

如果经过设定的最大迭代次数仍然没有找到答案，系统还有一个"后备方案"：把所有发现的证据整理成一份综合报告，交给一个专门的综合型AI，让它在不进行新搜索的情况下，纯粹基于已有证据尝试推导答案。这个设计可以区分两种完全不同的失败模式：到底是探索不够充分没找到关键信息，还是找到了信息但无法正确综合。就像让一个侦探坐下来，只看案卷材料，不再外出调查，看能不能破案。如果这样还是破不了，就说明问题出在综合推理能力而不是搜索能力。

EvidenceLoop的第二个关键创新是"证据记忆系统"。每当任何AI执行搜索或访问页面时，系统都会将完整内容存入持久化记忆，并分配一个唯一的"证据编号"（EID）。这个编号就像案件中的证物编号一样，让所有证据都可追溯。后续的AI看到的不是冗长的原始文档，而是简洁的摘要加上证据编号，比如"凯恩有个哥哥叫查德[证据#042]，查德的继母是妮可[证据#089]"。如果AI需要查看某条证据的详细内容，只需用证据编号调取即可。

这种设计解决了AI推理中的另一个困境：要么让AI处理完整的原始文档导致上下文迅速膨胀，要么对文档进行压缩导致信息丢失。证据记忆系统提供了第三条路：AI可以在简洁摘要的基础上工作，保持上下文清爽，同时永远不会失去访问完整证据的能力。就像一个侦探的笔记本上记的都是要点，但所有证物都妥善保管在证物室，需要时随时可以提取。更重要的是，这些证据编号为验证提供了基础设施。

验证机制是EvidenceLoop的第三个核心组件。当任何AI试图给出答案时，它必须把答案分解成一系列原子性的声明，每个声明都要标注支持它的证据编号，比如"凯恩有个哥哥叫查德[证据#042]"。然后，一个专门的验证AI会提取这些证据的完整内容，检查三件事：每个声明是否真的被对应证据所支持，这些声明加起来是否能推导出所提出的答案，以及答案是否真正回答了原始问题。

验证的时机也很关键：它发生在推理过程中而非之后。如果一个答案未通过验证，系统会把具体的问题反馈给提出答案的AI，让它在剩余的行动预算内修正推理，填补证据缺口。而一旦某个答案通过验证，所有探索立即终止。这种设计既确保了答案必须建立在扎实证据基础上，又提高了效率，避免了不必要的搜索。就像侦探提出嫌疑人时，必须列出支持这一结论的所有证据，如果证据链有漏洞，侦探长会指出来要求补充调查；但只要证据链完整，案子就立即结案，不会浪费资源继续调查。

在WebDetective测试中，EvidenceLoop达到了25%的准确率，虽然离顶级商业模型还有差距，但作为一个完全开放、可定制的基线系统，它展示了正确的设计方向确实能够改善性能。更重要的是，通过这个系统的实践，研究团队识别出了四种反复出现的失败模式，为未来改进提供了明确目标。

第一种失败模式叫"过早放弃"。AI在经过几次失败的搜索后，会进入一种"习得性无助"状态，直接得出结论说答案不存在，拒绝继续探索。即使明确要求"请继续搜索"，它也会坚持认为没有更多信息可找。这就像一个侦探碰了几次壁就认定案子无解，完全放弃了，哪怕下一个要访谈的证人可能就是关键。

第二种是"上下文诱导的指令退化"。随着搜索上下文的积累，AI逐渐失去遵循基本指令的能力。开始时它会正确使用标签、保持结构化的推理，但慢慢地开始间歇性地丢失格式，最终完全放弃格式要求，产出混乱的意识流文本。这就像一个侦探开始还认真记笔记，但信息越来越多后就开始潦草书写，最后连标点符号都不打了。

第三种是"证据追踪失败"。AI在搜索迭代中会忘记已经发现了什么，重复搜索已经找到的实体，或者无法维持之前建立的实体关系。它分不清"因为遮蔽而找不到"和"还没搜索过"的区别，导致重复搜索或过早放弃可行路径。这就像一个记性不好的侦探，访谈过的证人又去访谈一遍，或者忘记之前了解到的关键关系。

第四种是"冗余搜索循环"。AI会反复访问已经探查过的页面，尤其是在中间推理步骤之后。比如访问了凯恩的页面，发现了查德，访问了查德的页面，然后思考了一会儿关系，接着又搜索"凯恩·科恩斯"或重新访问凯恩的页面，本质上是从头重启。虽然这样做并不算错，但浪费了宝贵的行动预算，用重复信息迅速填满上下文，加速了上下文退化，减少了AI在触及资源限制前能够达到的有效搜索深度。

至顶AI实验室洞见

这项研究价值在于提供了精确诊断问题的工具。是搜索能力不足找不到线索？是综合能力欠缺无法串联证据？还是校准能力缺失不知道何时该说"不知道"？这种精细化的诊断对于改进AI系统至关重要，因为你不可能改进你无法测量的东西。

研究团队还发现了一个现象：没有任何一个模型能够在所有维度上都表现优秀。表现最好的模型要么是"强大但过度自信"型，要么是"校准精英"型，前者准确率稍高但容易胡猜，后者略为保守但更可靠。这似乎暗示在当前的技术路线下，综合能力和校准能力之间存在某种内在的权衡关系。一个AI要想在复杂推理中表现出色，似乎就必然会变得过度自信；而如果要让它具备良好的自我认知，就会牺牲一部分表现能力。这个发现本身就很有趣，提示我们可能需要全新的架构设计来打破这种权衡。

EvidenceLoop系统展示的设计理念值得重视：结构化的证据管理、迭代式的探索精炼、严格的验证机制。这些都是人类专家在处理复杂推理任务时自然采用的策略，但AI系统往往缺乏这些。未来的研究如果能够更好地将这些元认知策略融入AI架构，或许能够在真正的自主推理上取得突破。

宏观角度上，研究还触及了人工智能领域一个根本性的问题：我们到底在评估什么？过去几年，AI在各种基准测试上的表现突飞猛进，让人们感觉通用人工智能已经近在咫尺。但WebDetective的结果提醒我们，也许我们高估了这些进展，因为我们一直在用"泄题"的测试来考核AI。当我们终于出了一道不泄题的真题，才发现AI的实际推理能力远不如我们想象的那么强。这并不是说AI没有进步，而是说我们需要更清醒地认识进步的真实程度，避免过度乐观。

对于AI研究社区来说，未来的模型开发可以使用WebDetective进行诊断，精确定位自己的弱点在哪里，然后有针对性地改进。对于那些知识充分性高但知识利用率低的模型，应该重点改进证据综合和推理组合能力；对于那些过度自信的模型，需要加强校准机制；对于那些搜索能力不足的模型，则应该改进探索策略。这种精准的诊断和定向改进，比盲目调整模型参数或增加训练数据要有效得多。

模型在长上下文中的"指令退化"现象也值得深思：为什么随着信息的增多，AI遵循基本指令的能力会下降？这似乎暗示当前的注意力机制或长文本处理方法存在某种根本性的缺陷，在信息密度和多样性增加时无法保持对原始任务要求的关注。这可能需要从模型架构层面进行改进，而不仅仅是增加参数量或扩大上下文窗口。感兴趣的朋友可以这篇文章里找找答案：上下文腐烂：当百万token成为AI模型的阿喀琉斯之踵。

另一个值得注意的发现是"知识遗忘"比"被带偏"更常见。这说明AI的主要问题不是被噪音干扰，而是在复杂推理过程中无法有效保持和应用它本来知道的信息。这可能与当前大语言模型的工作记忆机制有关——它们缺乏人类那种能够主动维持和操纵相关信息的工作记忆系统。未来的研究或许需要在模型中引入更明确的记忆管理机制，类似于EvidenceLoop中的证据记忆系统，但更深度地整合到模型的推理过程中。

在AI能力的评估上，我们需要更加严格和诚实。再好看的基准测试分数也可能掩盖了真实能力的不足，只有让AI面对真正的挑战时，才能看清它们的真实水平。而从目前发现来看，在真正的自主推理这条路上，即使是最先进的AI系统也还有很长的路要走。

END

本文来自至顶AI实验室，一个专注于探索生成式AI前沿技术及其应用的实验室。致力于推动生成式AI在各个领域的创新与突破，挖掘其潜在的应用场景，为企业和个人提供切实可行的解决方案。

Q&A

Q1：什么是"泄题"式的AI推理测试？

A：指的是问题本身就包含了解题提示，比如直接告诉AI推理步骤（"找哥哥的继母的丈夫"），或给出详细特征让AI匹配答案。这类测试让AI只需执行指令或做约束匹配，而非真正的自主推理。WebDetective去除了这些提示，只问最本质的问题如"凯恩的父亲是谁"。

Q2：为什么顶尖AI模型在WebDetective上表现不佳？

A：研究发现AI存在三大根本性缺陷：即使获得了所有必要证据也无法正确综合信息，在证据不足时仍然强行给出答案而不是拒绝回答，以及在长推理过程中会"遗忘"自己已知的信息。最好的模型o3-Pro也只达到56%准确率，说明当前AI在真正的自主推理上还远未成熟。

Q3：EvidenceLoop系统是如何工作的？

A：它采用了三个关键机制：迭代精炼（多轮并行探索后提取关键发现）、证据记忆系统（为所有证据分配编号便于追溯）、以及严格验证（要求AI给出的答案必须分解成带证据编号的声明并通过验证）。这套系统模仿了人类专家的推理策略，虽然目前性能还不是最顶尖，但展示了正确的设计方向

来源：至顶AI实验室

0赞

好文章，需要你的鼓励

AI推理能力被高估，阿里发现模型推理测试题目本身就泄题了 原创

来源：至顶AI实验室

2025

10/30

15:36

分享

点赞

专家纵论城市超级智能体：联想“1+N”架构为智慧城市4.0提供破局之道

生成式AI让谷歌和Meta变得更强大更富有

多智能体AI协作：医疗领域的技术突破

CIO为何应关注学术研究以把握技术趋势

亚马逊云科技与Anthropic完成超大规模AI超算集群项目

TikTok将用AI技术自动将长视频转换为短视频

Dell PowerStoreOS 4.2 亮点解析，智能化与安全性全面提升

AI实验室如何通过Mercor获取企业不愿分享的数据

英伟达成为首家市值突破5万亿美元的公司

AWS雷尼尔人工智能超级集群正式上线运行

Fitbit应用迎来史上最大改版：AI健身教练Coach正式亮相

Zoom携手英伟达打造企业级定制AI新时代

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

阿里要用AI将云计算重做一遍

PEC 2025 AI创新者大会

用AI，在数字身份验证风暴中心重构信任坐标

关于AI Agent落地，李开复强调了两件事：“价值交付”和“一把手工程”

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

AI推理能力被高估，阿里发现模型推理测试题目本身就泄题了原创