推理模型存在崩溃缺陷？Open Philanthropy研究人员提出AI推理能力评估的改进方法原创

推理模型存在崩溃缺陷？Open Philanthropy研究人员提出AI推理能力评估的改进方法

最近高考刚结束，设想一下考数学的时候。

有一道极其繁琐的数学题，要求你必须把解题的每一个步骤都详细写出来，包括每一次加减乘除的过程，而且还限制你只能用一张巴掌大的答题纸来书写。

当题目变得非常复杂时，你可能会发现纸不够用了，于是你告诉出题者："我知道怎么解，但是纸不够写完整个过程。"然而，出题者却因此认为你根本不会做这道题。这听起来是不是很荒谬？然而这正是最近一场关于人工智能推理能力的争论。

2025年6月10日，来自Open Philanthropy的Lawson发表了一篇题为《思维幻象的幻象：对Shojaee等人研究的评论》的论文，对另一项声称发现了大型推理模型存在根本性缺陷的研究提出了强烈质疑。这场学术争论不仅关乎AI技术的真实水平，而且告诉我们应该如何正确评估人工智能的能力。

争论的起源：AI真的在复杂问题上"崩溃"了吗？

故事要从Shojaee等人的一项研究说起。这些研究者声称他们发现了一个令人震惊的现象：当给大型推理模型出一些规划类的难题时，比如汉诺塔游戏或过河问题，模型在面对超过某个复杂度的题目时，准确率会突然"崩溃"到零。就像一个学生在简单算术上表现很好，但面对稍微复杂一点的题目就完全不会做了一样。

推理模型存在崩溃缺陷？Open Philanthropy研究人员提出AI推理能力评估的改进方法

汉诺塔游戏是一个经典的益智游戏，你有三根柱子，其中一根上面从下到上叠着几个大小不同的圆盘，大的在下面，小的在上面，就像一座宝塔。游戏的目标是把所有圆盘移到另一根柱子上，但有两个规则：一次只能移动一个圆盘，而且大圆盘不能放在小圆盘上面。随着圆盘数量的增加，需要的移动次数会呈指数级增长：3个圆盘需要7步，4个圆盘需要15步，10个圆盘就需要1023步了。

Shojaee等人测试了各种AI模型解决这类问题的能力，结果发现了一个看似令人担忧的现象：当汉诺塔的圆盘数量增加到一定程度时，所有模型的成功率都会突然降到零。他们将此现象称为"准确率崩溃"，并认为这揭示了大型推理模型存在根本性的推理局限。

作者Lawsen却从这些实验中看出了不同的门道。他认为这些所谓的推理失败实际上更像是实验设计的问题，而不是AI模型本身的缺陷。就像前面提到的那个比喻，问题可能不在于学生不会做题，而在于给的纸张不够大。

被误解的聪明表现：AI模型其实知道自己的限制

在深入分析那些据说失败的AI回答时，研究人员发现了一个有趣的现象。AI模型并不是真的不知道如何解决汉诺塔问题，相反，它们显示出了令人惊讶的自我认知能力。

推理模型存在崩溃缺陷？Open Philanthropy研究人员提出AI推理能力评估的改进方法

一位名为@scaling01的用户在Twitter上进行的复现实验中，记录下了AI模型的完整回答。当面对复杂的汉诺塔问题时，模型会明确表述："这个模式会继续下去，但为了避免回答过长，我就在这里停止了。"很像一个学生在考试中写道："我知道后面的步骤，但答题纸不够了，所以我先写到这里。"

这个发现非常重要，因为它表明AI模型实际上理解解题的方法和模式，只是选择不完整列举所有步骤。这种行为更像是一种理性的自我限制，而不是能力缺陷。如果你要向别人解释如何从北京步行到上海，你可能会说"先往南走，然后..."，但你不会真的把每一条街道的转弯都详细描述出来，因为那样既不实用也不必要。

然而，原始研究的自动化评估系统却无法理解这种微妙之处。它们只会机械地检查答案是否完整，就像一个严格的老师只看学生是否写满了所有空格，而不关心学生是否真正理解了问题。这种评估方式的局限性导致了对AI能力的严重误判。

统计学陷阱：完美执行的不可能性

为了更好地理解这个问题，让我们用一个具体的例子来说明。假设你要抄写一本10000字的书，而你每写一个字都有0.1%的概率出错。那么，你完美无误地抄完整本书的概率是多少呢？

根据概率论，这个概率等于（0.999）的10000次方，约等于0.005%，几乎不可能实现。这意味着即使你是一个非常仔细的抄写员，在处理如此长的文本时，出现某个小错误几乎是不可避免的。

同样的道理也适用于AI模型。当要求它们输出汉诺塔问题的完整解答时，随着问题复杂度的增加，需要输出的文本长度也呈指数级增长。即使模型在每个小步骤上都有很高的准确率，但当需要完美执行成千上万个小步骤时，出现某个微小错误的概率就会变得很高。

这种现象在学术界被称为"统计必然性"论证，一些研究者甚至以此为基础声称大型语言模型的扩展存在根本性限制。但这种论证忽略了一个重要前提：它假设模型无法识别和适应自己的限制，而这个假设恰恰被前面提到的证据所推翻。

就像一个经验丰富的作家知道如何在有限的篇幅内传达完整的思想一样，AI模型也显示出了类似的智慧。它们能够识别何时应该提供完整的逐步解答，何时应该采用更简洁的表达方式。

不可能完成的任务：当评测本身就有问题

这场争论中最让人无语的发现可能是关于"过河问题"的部分。过河问题是另一类经典的逻辑谜题，最著名的版本是"传教士与食人族"问题：三个传教士和三个食人族要过河，船只能载两个人，而且任何一边食人族的数量都不能超过传教士，否则传教士就会被吃掉。

Shojaee等人的研究测试了更复杂的版本，涉及6个或更多的角色，但仍然使用容量为3的船。然而，数学上已经被证明，当角色数量超过5个而船的容量仍为3时，这类问题是无解的。这就像要求你用一个只能装2升水的桶，一次性运输3升水一样，在物理上根本不可能实现。

但是，原始研究的评估系统却将这些无解问题当作正常题目，然后因为模型无法解答而给出零分。

更离谱的是，当AI模型正确地识别出这些问题无解时，评估系统反而将这种正确的判断标记为错误。这就像惩罚一个SAT求解器（一种专门判断逻辑表达式是否可满足的程序）因为它对不可满足的表达式返回无解结果一样。

这个发现暴露了纯粹程序化评估的一个根本缺陷：它们无法区分真正的推理失败和对不可能任务的正确识别。在科学研究和日常生活中，能够识别不可能的任务往往比盲目尝试更有价值。

解决方案的巧思：换个角度看问题

面对这些评估问题，研究人员决定采用一种完全不同的方法来测试AI模型的真实能力。他们没有要求模型输出汉诺塔问题的每一步具体操作，而是请模型编写一个程序来解决问题。

具体来说，他们给出了这样的提示："解决15个圆盘的汉诺塔问题。输出一个Lua函数，调用时可以打印出解决方案。"就像是改变了考试形式，从要求学生写出长篇计算过程，变成要求他们写出解题的公式或算法。

结果令人震惊。同样的AI模型，包括Claude-3.7-Sonnet、Claude Opus 4、OpenAI o3和Google Gemini 2.5，在这种新的测试方式下表现出了极高的准确率，而且生成的代码都不超过5000个token。相比之下，按原来方式需要的token数量会是这个数字的十几倍。

生成的解决方案都正确实现了递归算法，清晰地展示了模型对问题本质的深刻理解。其实相当于学生们不是不会解方程，而是之前的考试要求他们用最笨的方法来展示答案的问题。

这个实验的意义远不止于证明AI模型的能力。它揭示了一个更深层的问题：当我们评估智能时，评估方式本身可能比被评估的对象更重要。就像用错误的标尺测量物体会得出错误的长度一样，用不合适的方法评估智能也会得出误导性的结论。

复杂度的真正含义：不是所有困难都一样

为了更好地理解为什么AI模型在某些看似简单的问题上表现不佳，而在某些看似复杂的问题上却游刃有余，我们需要重新审视复杂度这个概念。

原始研究使用"最小移动次数"作为衡量问题复杂度的标准，但这种方法混淆了机械执行的复杂度与问题解决的难度。想象一下三种不同的任务：建造一座高楼、解一道数学谜题、抄写一本厚厚的字典。

建造高楼需要大量的材料和时间，但每一步的操作都相对简单和标准化，就像汉诺塔问题，虽然需要很多步骤，但每一步的决策都遵循简单的规则。解数学谜题可能只需要写几行字，但需要创造性思维和复杂推理，更像是过河问题，步骤少但每步都需要仔细思考。抄写字典需要大量重复性工作，但不需要太多思考，类似于机械地执行已知算法。

研究人员通过一个清晰的对比表格展示了这种差异。汉诺塔问题虽然需要指数级数量的移动步骤，但在每一步的决策上几乎不需要搜索，因为下一步总是显而易见的。相比之下，过河问题虽然通常只需要几十步，但每一步都需要在多个可能性中进行选择，这使它成为一个NP困难问题（一类计算复杂度很高的问题）。

这种理解帮助我们解释了一个看似矛盾的现象：为什么AI模型能够处理需要数百步操作的汉诺塔问题，却可能在只需要几步的过河问题上遇到困难。这不是因为模型"不够聪明"，而是因为这两类问题需要完全不同类型的认知资源。

评估的艺术：区分推理能力和打字能力

这场争论的核心启示可能是：我们需要重新思考如何评估人工智能的能力。传统的评估方法往往过分关注输出的完整性和形式的标准化，却忽视了智能的本质特征，理解、适应和创新的能力。

当我们评估一个人的音乐能力时，会怎么做？我们可能会让他演奏一首曲子，但如果他的钢琴键盘突然坏了几个键，我们不会因此认为他不会音乐。相反，我们可能会提供其他乐器，或者让他哼唱旋律。关键是要测试音乐理解和表达能力，而不是特定乐器的操作技巧。

同样，当评估AI的推理能力时，我们应该关注的是模型是否理解问题的本质，是否能够制定有效的解决策略，而不是它是否能够完美地执行每一个微小的步骤。正如这项研究所显示的，当我们改变评估方式，要求模型展示算法理解而不是逐步执行时，它们的表现截然不同。

这种认识对AI研究和应用都有重要意义。在研究层面，它提醒我们设计评估实验时需要格外小心，确保测试的真正是我们想要测试的能力。在应用层面，它建议我们应该根据AI系统的特点来设计人机交互方式，而不是强制它们适应为人类设计的交互模式。

研究人员为未来的工作提出了几个重要建议。首先，设计能够区分推理能力和输出限制的评估方法。其次，在评估模型性能之前，需要验证问题本身是否可解。第三，使用反映计算难度而不仅仅是解决方案长度的复杂度指标。最后，考虑多种解决方案表示形式，以区分算法理解和执行能力。

更深层的反思：人工智能评估的未来

这场学术争论背后反映的是一个更深层的问题：随着AI系统变得越来越复杂和能干，我们的评估方法是否跟上了它们的发展步伐？

在AI发展的早期阶段，评估相对简单，我们可以很容易地区分出能工作的系统和不能工作的系统。但现在的AI系统已经展现出了某种形式的元认知能力，它们能够理解自己的限制，做出策略性选择，甚至在某些情况下拒绝执行不合理的任务。这种复杂性要求我们采用更加细致和人性化的评估方法。

传统的基准测试往往假设被测试的系统是被动的，系统会机械地尝试完成任何给定的任务，无论任务是否合理。但现代AI系统更像是主动的智能体，它们会评估任务的可行性，考虑资源限制，甚至质疑任务的合理性。这种变化需要我们重新设计评估框架。

此外，这个案例还暴露了自动化评估的局限性。虽然自动化评估在处理大规模数据时非常有效，但它们往往缺乏理解上下文和识别微妙差异的能力。当AI系统变得足够复杂，能够产生需要深度理解才能正确评估的输出时，纯自动化的评估就可能产生误导性结果。

至顶AI实验室洞见

当我们试图评估智能时，评估方法本身就是一门艺术。

当我们看到关于AI失败或突破的研究或者新闻时，应该深入了解测试条件和评估方法。就像在这个案例里，同样的AI系统在不同的测试条件下可能表现截然不同。一个看似表明AI有重大缺陷的研究，可能实际上只是揭示了测试方法的问题。

无论是过分夸大AI的能力还是过分贬低它们，都可能基于不完整或有偏见的信息。真正理解AI的能力和局限需要仔细分析具体的测试场景和方法。

另外，我们需要理解AI系统的智能可能与人类智能有很大不同。人类在面对资源限制时会自然地采用简化策略，而早期的AI评估往往期望系统能够在任何条件下都提供完整的答案。现代AI系统开始展现出类似人类的适应性，这实际上是一个积极的发展，即使它可能在某些传统测试中表现不佳。

就像那个纸张不够用的比喻一样，有时候看似的失败实际上反映的是条件限制，而不是能力缺陷。当AI系统说"为了避免回答过长，我就在这里停止"时，它们展现的可能不是无能，而是一种智慧的自我认知。

随着AI系统变得越来越复杂，我们需要更加细致和人性化的方法来理解和评估它们。简单的对错判断可能不再足够，我们需要考虑上下文、意图和策略选择。

正如研究人员在结论中巧妙地总结的："问题不在于大型推理模型能否推理，而在于我们的评估能否区分推理和打字。"

在AI快速发展的时代，保持开放、批判和细致的态度比以往任何时候都更重要。无论是研究人员、开发者还是普通用户，我们都需要不断更新我们理解和评估智能的方式，以跟上技术发展的步伐。

论文地址：
https://www.arxiv.org/abs/2506.09250

END

本文来自至顶AI实验室，一个专注于探索生成式AI前沿技术及其应用的实验室。致力于推动生成式AI在各个领域的创新与突破，挖掘其潜在的应用场景，为企业和个人提供切实可行的解决方案。

Q&A

Q1. AI准确率崩溃现象是什么？

A：Shojaee等人的研究发现，大型推理模型（LRMs）在解决复杂规划类问题（如汉诺塔游戏或过河问题）时，当问题复杂度超过一定阈值（如汉诺塔圆盘数量增加到一定程度），模型的准确率会突然“崩溃”到零。这一现象被称为“准确率崩溃”，他们认为这揭示了AI存在根本性的推理局限，类似于学生面对稍复杂的题目就完全不会做。

Q2. Lawson的论文如何反驳Shojaee等人研究的结论？

A：Lawson的论文《思维幻象的幻象:对Shojaee等人研究的评论》反驳道，AI的失败并非能力缺陷，而是实验设计问题。具体来说，在Shojaee等人的测试中，AI模型（如Claude-3.7-Sonnet）实际上理解解题方法，但选择不输出所有步骤以避免过长响应（如明确说“这个模式会继续下去，但为了避免回答过长，我就在这里停止了”），这类似于学生因答题纸不够而停止书写。Lawson认为，Shojaee等人的评估系统无法识别这种自我限制，导致误判。

Q3. 应该如何进行AI推理能力评估？

A：研究人员提出了一种新评估方法：不再要求AI输出完整步骤，而是让模型编写程序解决复杂问题（如要求AI生成Lua函数来解决15个圆盘的汉诺塔问题）。在这种方式下，同样模型（包括Claude Opus 4、OpenAI o3和GoogleGemini2.5）表现出高准确率，且生成的代码简洁（不超过5000个token），证明AI理解算法本质。这揭示了评估需区分“推理能力”和“输出限制”，并考虑问题可行性（如避免测试无解任务）。