陶哲轩:AI跳得比任何人都高,但数学需要的是攀岩 原创

2026年3月20日,Dwarkesh Podcast发布了对菲尔兹奖得主、UCLA数学教授陶哲轩(Terence Tao)的最新长访谈,时长约90分钟。主持人Dwarkesh Patel从开普勒发现行星运动定律的故事切入,与陶哲轩讨论了AI对数学和科学研究的实际影响。

2026年3月20日,Dwarkesh Podcast发布了对菲尔兹奖得主、UCLA数学教授陶哲轩(Terence Tao)的最新长访谈,时长约90分钟。主持人Dwarkesh Patel从开普勒发现行星运动定律的故事切入,与陶哲轩讨论了AI对数学和科学研究的实际影响。

陶哲轩:AI跳得比任何人都高,但数学需要的是攀岩

陶哲轩在2023年6月为微软AI文集撰文时做过一个预测:到2026年,AI在正确使用的前提下将成为数学研究中可信赖的合著者。三年后他在播客中表示对这个预测相当满意。但满意之外有大量限定:AI辅助解决了约50道Erdos问题(匈牙利数学家Paul Erdos留下的1100多个数学猜想),系统性测试的成功率却只有1-2%;AI让他的论文变得更丰富,但在最困难的数学核心问题上,他仍然用纸和笔。播客发布前一个月,Scientific American的深度报道显示AI工具已帮助将约100道Erdos问题转入"已解决"状态,其中多数属于文献检索和已有技术的组合应用,少数才是原创证明。这期对话在这波热潮之后展开,是一次冷静的阶段性复盘。

1. 开普勒是"高温LLM":正确理论为什么早期表现更差

Dwarkesh用一个大胆的类比开场:开普勒像一个"高温LLM"。

这位17世纪的天文学家在拿到第谷·布拉赫(Tycho Brahe,裸眼天文观测史上最后也最精确的观测者)的数据之后,花了20年尝试各种几何关系。他先是认为行星轨道之间可以嵌入五种柏拉图立体(正四面体、正六面体等),后来又尝试把行星与音乐和声对应起来。这些理论今天看全是错的,但他就这样一个接一个地试,直到终于发现了椭圆轨道和行星运动三定律。

陶哲轩接过这个类比,但指向了一个更深的问题:在科学史上,最终被证明正确的理论,在早期阶段经常表现得比精心打磨过的错误理论更差。

哥白尼的日心说比托勒密的地心说简洁得多,但精度更低。地心说经过上千年的ad hoc修补,哪里不对补哪里,对行星位置的预测已经相当准确。直到开普勒用椭圆替换了圆,日心说的精度才反超。陶哲轩说,第谷的观测精度比前人高出10倍。在此之前,开普勒用圆形轨道去拟合行星数据,偏差大约10%,勉强可以靠"给圆加一些偏心""稍微挪动圆心"之类的修补凑合过去。但第谷的数据精确到偏差只允许1-2%,那些修补手段全部失效了。开普勒被逼着去试其他形状,最终发现椭圆才是对的。高精度数据把"差不多对"的理论逼成了"明确错",才给了正确答案登场的机会。

这对AI做科学意味着什么? 如果用预测准确率来做强化学习的奖励信号,真正的突破反而会被扣分,因为突破在早期往往"看起来更差"。

Dwarkesh还引用了18世纪天文学家Johannes Bode推广的一条经验规律,用等比数列预测行星到太阳的距离。天王星和谷神星的发现都符合这条规律,一度让人以为找到了自然法则。但海王星的发现彻底推翻了它。陶哲轩说,六个数据点做回归分析,运气成分太大。开普勒对自己的第三定律也远不如前两条那么自信,也许他凭直觉已经意识到了这一点。

2. 达尔文比牛顿晚了两个世纪,原因不是智力

Dwarkesh接着引用了科普作家Edward Dolnick的《发条宇宙》(The Clockwork Universe,一本关于牛顿时代科学革命的畅销书)中的一个观察:牛顿《原理》发表于1687年,达尔文《物种起源》发表于1859年,中间隔了将近两个世纪。但自然选择在概念上比万有引力简单得多。

达尔文的同时代生物学家Thomas Huxley(因替达尔文在公开辩论中冲锋陷阵而被称为"达尔文的斗犬")读完《物种起源》后说:怎么这么蠢,竟然没早点想到。从来没有人对牛顿的引力理论说过这种话。

陶哲轩认为关键区别在于验证结构。 牛顿可以用一组方程预测月球轨道周期和距离,如果数据对上了,验证循环就闭合了。达尔文的自然选择依赖累积性和回溯性的证据,没有人能在你面前设计一个实验演示进化。古罗马诗人卢克莱修在公元前1世纪的长诗《物性论》中就提出过物种适应环境的朴素想法,但两千年来无人能推进,缺的就是可操作的验证手段。

这意味着,AI可能在验证循环紧凑的领域进展飞快,但在需要累积性证据的领域推进会慢得多。 数学恰好属于前者,这也解释了为什么AI在数学竞赛和形式化证明上的进步如此显眼。

陶哲轩还提到一个经常被忽视的维度:科学传播本身是科学进步的一部分。 达尔文用英语白话写作,不用数学公式,把散落各处的观察编织成一个有说服力的叙事。牛顿用拉丁语写作,发明了全新的数学语言才能表述自己的理论,性格也出了名地难相处,经常对竞争者隐瞒最好的洞见。牛顿的工作在他之后几十年,由其他科学家用更简单的语言重述后才广泛传播。怎样量化说服力? 陶哲轩说这可能永远是科学中属于人类的那一面。

3. "AI把想法生成的成本打到了接近零"

对话的基调在这里转向了当下。

陶哲轩用了一个类比:AI把想法生成的成本打到了接近零,就像互联网把通讯成本打到了接近零。 这件事本身是惊人的,但互联网带来了信息爆炸的同时也带来了垃圾信息泛滥。AI做的是同一件事。科学界突然面对成千上万条未经验证的理论,人类评审员的带宽已经被淹没。

很多期刊已经报告AI投稿洪水般涌入。传统的同行评审机制是为稀缺的人类创意设计的,信号和噪声混在一起时就失灵了。对单篇论文,科学家可以花几年辩论达成共识;每天涌入上千篇时,这套流程就撑不住了。

Dwarkesh追问了一个尖锐的问题:如果未来AI生成了百万篇论文,其中一篇包含类似香农"比特"概念那样横跨多学科的统一性突破,科学界怎样从海量平庸进展中识别出来?

陶哲轩坦率回答:多数时候靠时间检验。 深度学习在AI领域边缘化了几十年才翻身;transformer也不是唯一可能成功的架构,只是恰好最先到达了足够的能力门槛。十进制数字系统没有什么特殊之处,只是全世界都用它,惯性太大无法切换。脱离时间和语境,没有办法给任何一项科学成就打出客观分数。 这种评估可能永远无法被强化学习捕捉。

他还补充了一个更深层的观察:科学进步经常来自删除假设,而不是添加理论。 日心说被接受得如此缓慢,核心原因之一是亚里士多德物理学中"物体天然趋向静止"的假设。如果地球在动,人为什么不会被甩飞?直到牛顿运动定律取消了这条假设,日心说才在概念上站住脚。达尔文面对的是同一类障碍:物种看起来是固定不变的,因为在一个人的一生中观察不到进化。

4. 50道题已破,但成功率只有1-2%

陶哲轩自己维护着一个GitHub wiki,追踪AI在Erdos问题上的每一步贡献。他在播客中给出的判断比社交媒体上的叙事冷静得多。

截至播客发布时,AI辅助解决了大约50道Erdos问题,约600道仍然待解。绝大多数的解法模式是:把一项不太知名的已有技术和文献中的另一个结果组合起来,得到证明。这些题之前没被解决,主要是因为没有足够多的专家去认真尝试。

曾经有大约一个月的时间,前沿模型可以直接one-shot解决一些Erdos问题。这个窗口已经关闭了。陶哲轩说他知道至少三个独立团队尝试让前沿模型同时攻击所有剩余问题,结果只找到了一些小观察和已有文献中的解,没有新的纯AI证明。

现在仍有人在推进,但模式已经变了:一个人让AI生成证明策略,另一个人用不同的AI工具来批评或改写,第三个人做数值验证或文献调查。有些问题是通过人类和多种AI工具之间的持续对话解决的。

但每次做系统性扫描,任意一道题的AI解题成功率大约是1-2%。 成功看起来壮观,纯粹因为可以批量尝试、只展示赢面。陶哲轩预测接下来的情况是:几道高声誉的数学难题可能被AI幸运地"后门突破",获得大量关注;但当其他数学家把同样的工具用在自己最关心的问题上时,又会体验到那个1-2%。这种信号与噪声的不对称会持续制造误判。

他对顶级数学期刊论文给了一个大致比例:已有方法能解决问题的80%,剩下20%抵抗一切已知技术,需要发明新东西来填补缺口。 AI目前擅长的恰恰是前面那80%:把所有已知技术逐一尝试,有时候实现得比人类还准确。但那关键的20%,在已知方法全部失败后该怎么办,AI还不会。

5. "跳跃机器人":能跳2米,但不会在半空中停下来

这是整期播客中画面感最强的一段。

陶哲轩说,想象一个黑暗的山脉,有3英尺的矮墙、6英尺的中墙、15英尺的高墙和悬崖峭壁。你不知道哪面墙有多高,你试图翻越尽可能多的墙。人类会点蜡烛、画地图、慢慢摸索,在岩壁上找手握点,一点一点往上爬。

AI是一台弹跳机器人,能跳2米高,比任何人都高。 放出去之后,它会迅速找到并翻越所有低矮的墙。这就是Erdos问题中发生的事。

但它做不到的是:跳到一半抓住岩壁上的把手,在那里停住,把同伴拉上来,然后从半空中继续攀爬。它要么一次成功,要么彻底失败,没有中间状态。 下一次模型能力大幅提升时,同样的扫荡会再来一轮,再收割一批更高的矮墙,然后再次停滞。

Dwarkesh敏锐地指出,同一个论据既可以看空也可以看多:看空是AI只能达到一定高度;看多是一旦AI达到某个能力水位线,它可以把该水位线以下的所有问题全部填满。 人类做不到这一点。你无法复制出一百万个陶哲轩、每人给一百万美元的推理算力、让他们同时做十万道题。但AI到达人类水平时,可以。

陶哲轩同意这个判断。AI擅长广度,人类擅长深度。 当前的科学体系围绕人类的深度优势设计,因为人类做不了广度。但AI带来了全新的维度,科学界需要重新设计工作方式来利用它——比如先用AI扫荡一个领域中所有简单的观察,绘制出"难度地图",然后人类专家聚焦到被标记出来的困难岛屿。

他说,一旦同时拥有广度和深度,科学将变得面目全非。 但广度这一侧太新了,连范式都还没有建立起来。

6. "论文更丰富了,但没有更深刻"

Dwarkesh问陶哲轩:你个人的生产力因为AI提高了多少?

陶哲轩的回答比"2倍"精确得多。他的论文现在包含更多代码、更多图表、更深入的文献综述,因为这些以前要花几小时的工作现在几分钟就能完成。 但他过去根本不会在论文里放那些图表,所以这不是"同样的工作快了5倍",而是"工作的构成变了"。

解决一道数学问题中最困难的核心部分,他仍然用纸和笔。 AI在这个环节几乎没有帮上忙。如果让他以2020年的标准来写一篇同等水平的论文,不加这些AI带来的额外功能,老实说省不了多少时间。

他举了一个很具体的例子:他现在用AI agent自动调整LaTeX中括号的大小匹配,这类格式琐事以前要手动一个个改。这个细节传递出的信号比任何概括都准确。AI在顶尖数学家工作流中的位置,是排版助手和文献搜索引擎,不是思想伙伴。

陶哲轩在别处提过一个概念叫"artificial cleverness"(人工巧智),在播客中他做了更细的展开。人与人合作解题时,有一种动态演化的过程: 一个想法看起来有希望,测试后失败,但失败本身提供了信息,策略因此调整,逐步逼近答案。每一步的失败都在缩小搜索空间。AI做不到这一点。它可以反复跳跃和失败,但不会从失败中累积出中间进展。

模型解出一道题后,它自身对数学的理解并没有因此进步。 开一个新对话,之前的一切经验就清零了。

Dwarkesh提出了一个值得细想的区分:软件工程的目标是让代码在世界中产生效果,理解只是手段;数学研究的目标是理解本身,证明反而是衡量理解的手段。如果AI跳过了理解直接给出证明,在软件领域没问题,在数学领域就丧失了全部意义。陶哲轩同意,但补充说即使在软件中,AI生成的boilerplate代码在后续维护和集成时也会暴露问题。如果你从来没经历过写的过程,后续维护能力会打折。

7. 如果AI证明了黎曼猜想

四色定理至今没有概念上优雅的证明,本质上是把问题拆成海量子情形逐一计算机验证。陶哲轩说,某些问题可能天生只能这样解决。

但黎曼猜想不太像这类问题。数学界普遍认为,解决它需要创造新类型的数学,或者发现两个此前互不相关的数学领域之间的深层联系。 当然也存在一种不太可能的场景:黎曼猜想是错的,某个大规模计算直接找到了临界线之外的零点。陶哲轩说那将"令人非常失望"。

他对"如果AI给出了一个完全不可理解的证明怎么办"这种担忧并不太焦虑。原因在于Lean,一种形式化证明语言,可以把证明的每一步转化为计算机可验证的代码。如果AI生成了一个巨大的Lean证明,人类可以抽取其中任何一个引理单独研究。有经验的数学家可以判断哪些步骤是常规操作、哪些包含真正新颖的想法。

陶哲轩预测,未来可能会出现专门的数学家职业,负责对AI生成的庞大证明做消融实验: 像工程师从机器上逐个拆零件来判断哪个才是关键部件一样,逐个去掉证明中的步骤,看它是否还成立;用其他AI做强化学习寻找更优雅的路径;让另一组AI给证明的"优雅度"打分。

过去写论文是最耗时的环节,重写和重构痛苦到不值得反复做。现在一份证明可以被快速生成上百个变体版本。在Erdos问题网站上,AI生成的3000行Lean证明已经被其他人用AI总结、用人工重写成更短的版本。一旦有了证明这个"工件",后处理工具已经足够丰富。

8. "这更像一个愿望,而不是一个计划"

数学的逻辑公理体系(ZFC集合论加一阶逻辑)从欧几里得开始,直到20世纪初才最终定型。Lean已经把演绎证明完全自动化了。

陶哲轩提出了一个更大的愿景:如果存在某种半形式化的语言,可以表达猜想的合理性和策略方向的可信度,AI在"提出猜想"和"评估策略"上就能像在"验证证明"上一样被训练和评测。 但他也承认,这更像愿望而非计划。

他用素数的随机模型来解释这种"猜想性的概念框架"是什么。高斯统计了前十万个素数,发现密度大约与自然对数的倒数成正比。之后数学家逐渐建立了一个模型:虽然素数的生成不涉及随机过程,但把它们当作特定密度的随机集合来对待,可以做出精确预测。孪生素数猜想、黎曼猜想的可信度、基于素数的密码学安全性,都建立在这个非严格但极其准确的框架之上。

如果黎曼猜想被证伪,意味着素数中存在一种此前未知的隐藏模式。 整个随机模型要重写,基于素数的密码学也会立即面临威胁,因为有一个未知模式就大概率意味着还有更多。

这种框架是科学家真实的思维方式,但没有任何形式化语言可以捕捉它。更棘手的是,任何这样的框架都必须足够robust,不能被AI轻易hack。陶哲轩特别强调这一点:强化学习在找后门方面的能力已经被反复证明了。

他提出了一条可能的路径:创建大量"迷你宇宙",让AI在简单的数学问题上自行发展策略,从这些小实验室中学习关于策略本身的规律。

9. "演绎性过剩":现有数据中可能还埋着什么

Dwarkesh从陶哲轩著名的"宇宙距离阶梯"讲座中提炼出一个概念:仅凭射入地球的光线和已知的物理定律,天文学家就推算出了恒星距离、宇宙年龄和膨胀速率。如果换一种视角或方法看同样的数据,我们是否能推导出远超当前认知的结论?

陶哲轩回应说,天文学是最早拥抱"从有限数据中榨取一切"的学科,因为天文数据极其昂贵。天文学家像福尔摩斯一样从微量线索推演出复杂结论。他提到,不少量化对冲基金在招聘时偏爱天文学PhD,正是因为这种从噪声中提取信号的训练。

他举了一个精巧的例子:有人研究科学家到底有没有读过自己引用的论文。方法是追踪参考文献中typo被复制的频率——如果同一个拼写错误从一篇论文传到另一篇,说明引用者只是复制粘贴了参考文献列表,根本没查原文。这类聪明的间接指标,也许能帮助量化"哪些科学进展真正推动了后续工作"。

数学目前还停留在"病例报告"阶段,每篇论文精雕细琢一两个问题。AI工具让数学有可能进入"临床试验"阶段,对一千道题做A/B测试,量化不同策略的成功率。大规模做数学这件事才刚起步,但这恰恰是AI将真正颠覆数学的方向。

10. 偶然性、电脑游戏和年轻数学家

借用政治哲学家Isaiah Berlin用来区分思想家类型的经典比喻,陶哲轩说自己是fox(广博型),而非hedgehog(深耕型)。他有一种近乎强迫性的完成倾向:如果发现别人能用他不懂的方法解决他想解决的问题,他会有执念去搞清楚对方到底用了什么trick。这种冲动驱动他不断跨领域合作。他补充说自己不得不远离电脑游戏,因为一旦开始就会想打通所有关卡。

他在高等研究院待过一年。前几周效率惊人,堆积的论文飞速推进。但几个月后灵感枯竭,反而更多地刷互联网。他认为一定程度的干扰为思维引入了必要的随机性。

疫情期间学术界转向远程会议,安排了和以前差不多数量的正式交流,但丧失了走廊偶遇和咖啡间闲聊。他还怀念研究生时代去图书馆找期刊文章的经历:你查一篇论文,旁边那篇碰巧也很有趣。现在输入关键词精准获取你想要的东西,但再也遇不到那些意外的发现。

现代社会越来越擅长优化效率,但过度优化可能恰恰挤掉了催生突破的随机性。

他的博客也是这种哲学的产物。年轻时他经常学会一个技巧然后六个月后发现忘了。"我记得自己曾经理解过,但再也无法重建那个论证了。"经历几次之后他决定把所有学到的有趣东西写下来。写博客是在他不想做其他工作(比如审稿报告)时做的事,时间飞逝,半小时到几小时不等。

对年轻数学家,他的建议是拥抱变化。几百年来被视为理所当然的东西可能不再成立。高中生现在借助AI工具和Lean就有可能对前沿数学研究做出真正的贡献,不再需要先读完博士。非传统路径会越来越多,但传统教育在一段时间内仍然重要。

陶哲轩说,我们正在经历认知版的哥白尼革命。 过去以为人类智能是宇宙中心,现在AI让我们看到存在完全不同类型的智能,拥有完全不同的强项和弱项。我们对"哪些任务需要智能"的判断必须全面重排。有些过去只有哲学家才需要操心的问题,现在所有人都要面对。

"It's a scary time, but also very exciting." 令人不安,也充满可能性。

核心问答

Q1: AI把科学的瓶颈从哪里转移到了哪里?从想法生成转移到了验证和评估。AI让假说生成的成本接近零,就像互联网让通讯成本接近零。但丰收不会自动到来——现在的问题是成千上万的理论无人验证,同行评审系统的带宽已经被淹没。陶哲轩认为,识别真正重要的科学进展主要仍然依赖时间检验和人类判断,可能永远无法被强化学习捕捉。

Q2: AI在数学研究中的实际能力边界在哪里?陶哲轩用"跳跃机器人"比喻:AI能跳2米高,比任何人都高,可以批量翻越所有低矮的墙。但它不会攀岩——不会在半空中停下来抓住把手、累积局部进展、从失败中调整策略。系统性测试显示AI对开放数学问题的成功率约1-2%,成功集中在此前无人认真尝试的简单问题上。顶刊论文中80%可以靠已有方法解决,AI擅长这个部分;但剩下20%需要发明新技术,AI还做不到。

Q3: 人机协作什么时候会被纯AI研究取代?陶哲轩认为人机混合体将在相当长时间内占主导。AI在广度上碾压人类,人类在深度上仍有显著优势。他自己的体感是:辅助任务快了五倍,论文变得更丰富,但最困难的核心问题仍然靠纸和笔。当前AI缺少几项关键能力:从失败中累积进展、评估部分成果的价值、做战略方向判断、说服其他研究者投入一个方向。这些能力的突破需要超越现有框架的新进展,他预计未来十年内AI能接管数学家目前大部分日常工作,但数学家会转向更高层次的任务——就像计算机取代了手工计算对数表,但数学作为学科并没有死亡。

来源:至顶AI实验室

0赞

好文章,需要你的鼓励

2026

03/22

12:11

分享

点赞