阿里数学竞赛决赛落幕，宣告AI大模型短期内仍是文强理弱？原创

作者：吴彤

起底达摩院的研究版图。

85/801，801/60000。

这两个数字，分别是本届「阿里巴巴全球数学竞赛」决赛和初赛晋级选手比例。

6月22日，伴随着数学竞赛决赛结束，宣告这场总周期5个月，来自全球60多个国家和地区、代表100多所大学的参赛者智力角逐，终于迎来收官时刻。

接下来竞赛将进入专家组独立阅卷阶段，最终结果将于8月公布，金银铜及优秀奖等四类得主共同分享约400万元人民币奖金。

这一竞赛由马云于2018年发起，由阿里巴巴公益、达摩院（阿里全球性研究机构）联合举办，采用线上答题方式，出发点是激发更多年轻人对数学的兴趣，进而培养出更多具有创新思维的科技人才。如今竞赛举办至第六届，已成长为最大的国际性数学竞赛之一，累计吸引超过25万人参赛。

在社会声量方面，这一竞赛每年都能引发社会热议。

譬如今年来自江苏省涟水中等专业学校的17岁女生姜萍入围初赛；去年获得优秀奖的20岁华裔渐冻症少年楼印根；往届年龄最大的81岁吉大退休教授洪恒令；连续三届参赛的95后河南监狱警察吕致远；2018年拿下分析与微分方程赛道金奖的北大“扫地僧”韦东奕。

姜萍、楼印根、洪恒令、吕致远、韦东奕

不设国界、不分年龄、不问职业，阿里全球数学竞赛的立意，欢迎每一个热爱数学的人。

值得关注的是，在本届的竞赛组委会中，张益唐和印卧涛二人的名字位列其中。

他们一位是“半生潦倒”，在58岁证明数学界最著名的猜想之一——孪生素数猜想，从此跻身于世界重量级数学家的传奇人物；

一位是放弃美国终身数学系教授身份，加入达摩院从头组建团队，闭关四年研制“商用通用求解器”的带头人。

在本届竞赛中，他们也分别为理论数学和应用数学的重要代表。

张益唐、印卧涛

最终，阿里全球数学竞赛的意义，不仅仅体现在奖金和荣誉上，也远超解题本身，而是面向全球数学爱好者，集竞赛、培训、交流于一体，在于它对数学文化的推广、对数学精神的弘扬，以及对全球数学教育事业和科技创新的深远影响上。更近一步说，从科技追求到人才培养，从社会影响到企业文化，数学竞赛俨然成为达摩院乃至阿里集团战略布局的一部分。

用它们自己的话来说：把数学的故事讲下去，就赢了。

▋ 本届竞赛看点：AI全体无缘入围决赛，AI文强理弱？

伴随着过去一年大模型的火热，本届阿里数赛首次允许AI参赛--任何形式的AI都可以，无论是自己从头训练的模型，还是调用API。

这场史无前例的阿里AI数学挑战赛吸引了来自全球知名高校院所与企业的563支队伍报名。但初赛结果显示，AI最高分仅为34分，AI队伍的平均分达到了人类选手平均水平，离数学高手仍有较大差距，宣告AI全体无缘入围决赛。

这一现象引发了人们对“AI是否呈现文科强于理科”的讨论。

6月24日，在极客公园最新发布的“高考新课标Ⅰ卷大模型评测报告”中：GPT-4o 以562分排名文科总分第一。本次大模型高考评测与河南省考卷完全相同，河南高考录取分数线显示，文科本科一批录取分数线为521分，有三款国产AI成功冲上一本线。

与文科相比，大模型的理科成绩要差很多，最高分还不到480分，多数大模型的理科总分在400分以下。相比河南理科511分的一本线，大模型尚有较大差距。

另一场让AI进行高考的测试也引发关注。由上海人工智能实验室推出的司南评测体系OpenCompass，选取了零一万物、智谱AI、阿里云通义等6个开源模型及GPT-4o进行高考“语数外”全卷能力测试。

据悉，参与评测的所有开源模型开源时间均早于高考，以确保“闭卷”性，评测采用全国新课标I卷，由具有高考评卷经验的教师人工评判，更加接近真实阅卷标准。

一个明显的趋势是，大部分模型“考生”出现了偏科现象，其中语文、英语科目表现良好，但在数学方面全军覆没，连及格分都拿不到。

尽管如此，针对本届阿里数学竞赛，AI的表现也有可圈可点之处。

近期硅星人Pro的文章中提到：AI选手的表现令人类选手和阅卷老师都感到意外。一些AI在面对难题时会随机猜测答案，类似于人类在考试中的无奈之举；甚至于即便解题过程偏离正轨，某些AI仍能得出正确答案；阅卷老师注意到，AI还能获得一些未曾预想到它能解答正确的知识点分数。

此外一个有趣的现象是，AI在解题时倾向于展开冗长的推理过程，与人类跳过B直接从A推导到C的方式不同，AI似乎需要经过每个中间步骤。

这种独特的解题方法让AI似乎对数学有了自己独到的“理解”，类似于大型语言模型通过预测下一个词元(token)来重新理解语言。这种差异显著到让一些阅卷老师怀疑AI是否作弊。但这种怀疑并非因为它们表现得像机器，而是因为它们太像人类了。

然而，AI的偏科现象也提醒我们，目前的人工智能技术还存在一定的局限性和不足。或许其差异在于--AI和人类在解题和思维方式上存在本质的不同。AI的解题过程更倾向于遵循固定的算法和规则，而人类则能够运用直觉、经验和创造力来解决问题。

这不禁让人想起最近一年来学术界和业界持续讨论的一个话题：大模型出现的幻觉，或许正体现了大模型的创造力。

▋ 阿里达摩院为什么提倡数学？起底达摩院的研究版图

数学可以做什么？数学对阿里意味着什么？

在关注本届竞赛之余，这两个问题成为理解阿里以及达摩院长期规划的重要切入点。

尤其是达摩院，作为阿里集团的全球性科研机构，自2017年10月成立，一直致力于前沿科技的研究与开发。成立次年，达摩院响应马云号召，举办阿里数学竞赛、设立达摩院青橙奖，两大动作瞬间打开了达摩院的局面，第一波关注群体就是全球数学爱好者和中国青年学者。

实际上，达摩院在一众互联网大厂研究院中，成立时间并不算早。

华为“2012实验室”（华为的“总研究组织”），成立于2011年底，其前身是成立于1996年的华为中央研究院。

腾讯研究院，2007年开始组建，传言在2012年的组织架构大变构中被拆分，而后主要以“实验室”命名，如腾讯AI Lab、优图实验室、量子实验室、视频（多媒体）实验室。

百度研究院的发展可以追溯到2013年初，当时组建了深度学习研究院，即百度研究院的前身。2014年，百度研究院正式成立。

滴滴研究院成立于2016年，由2015年成立的滴滴机器学习研究院升级而来。

京东探索研究院作为京东权重最大的多个研究院之一，于2020年11月成立。

不同之处在于，马云作为阿里最大的话事人，早已为达摩院定下长期愿景--活得要比阿里巴巴长、服务全世界至少20亿人口、3年投资1000亿作为启动资金。一定程度上说，这种行事上的决绝，与从事基础科研研究的青年才俊志趣相投。

回到本届数学竞赛的主题上，数学能为达摩院带来什么？

长期以来，大众的直观感受是数学距离实际生活太过遥远。但在达摩院的回答，答案却并非如此。

一方面，数学是科学和技术发展的基础工具。

数学与其他学科如物理、工程、生物等的交叉，推动了新理论、新技术的发展。在当下信息时代，算法和数据科学的发展极大地推动了互联网、大数据和人工智能的兴起。这些技术背后都离不开数学的支撑，如算法设计、机器学习等。

另一方面，数学在解决工业、经济、金融、管理等领域的实际问题中发挥着关键作用。

在物流、供应链管理等领域，数学规划和优化算法帮助提高效率和降低成本。在国防安全领域，如弹道导弹防御系统的拦截问题研究中，解决尖端数学问题。甚至于历史上，数学在经济、产业或社会发生根本性变化时，常常起到先导作用。一个典型例子是，第一次工业革命期间，微积分在分析运动和力的应用，为机械设计和制造提供了理论基础。

可以说，数学的一端连接基础研究，另一端则连接产业应用。在这个过程中，达摩院的使命是打通中间墙，既要技术产品化、还要产品市场化。

目前达摩院的研究布局分为「智能」、「计算」两大分支。

前者包含了视觉技术、语言技术、视频技术、决策智能、医疗AI、智慧育种六个板块，推动了AI技术的发展，也为各行各业提供了智能化解决方案；

后者包含了计算技术、RISC-V两个板块，为硬件发展和软件优化提供了强大的支持。

上文提到本届竞赛委员会成员，拥有数学背景的印卧涛，正是如今达摩院决策智能实验室主任，长期致力于数学的其中一个分支--运筹优化研究。

他曾这样说道：“这一领域将整个经济社会描绘为无数个交织的方程组。机场航班的起降时间、物流的路径规划、金属冶炼的原料配比、工厂店铺的选址……”而这些方程组的价值在于，“为了实现经济学最简单而又最权威的目标——对稀缺资源进行最佳利用，必须快速求出这些方程组的最优解。 ”

求解，研发一款计算此类复杂数学题的“求解器”的底层工业软件，打破国外厂商垄断，这是属于印卧涛这样的应用数学人的选择。

当然，数学的世界远不止于此，理论数学作为数学的另一大分支，同样扮演着不可或缺的角色。

理论数学家们致力于探索数学的内在逻辑、结构和美。他们研究抽象的概念，如数论、代数几何、拓扑学和微分方程等，这些领域虽然看似与现实世界的距离较远，但它们为数学的深度和广度提供了坚实的基础。

在达摩院的设想里，这些都不应该缺失。

▋ 数学能否成为人机大战的新战场？

历史上，人机大战一直是AI发展的重要里程碑。从国际象棋到围棋，再到图灵测试，每一次的对决都标志着人工智能在特定领域的突破和进步。

现在，随着AI技术的飞速发展，数学领域似乎成为了下一个人机大战的关键点。

数学作为一门严谨的科学，其内在的逻辑性和普适性为AI提供了一个理想的竞技场。与棋类游戏不同，数学问题的解决不仅需要策略和模式识别，更需要深层次的理解和创新。

在阿里数学竞赛中，AI的参与不仅仅是为了解决数学问题，更是对其智能的一次全面检验。正如图灵测试中的机器需要通过对话来模仿人类，AI在数学竞赛中也需要展现出对数学概念的理解和解题能力。这不仅是对AI计算能力的考验，更是对其逻辑推理、创新思维甚至直觉的挑战。

What's next Human-AI battle, is it math?

欢迎一起讨论。

本文作者吴彤长期关注AI技术和落地，系统记录科技的每一次变革，欢迎各位同道加好友交流，微信号：icedaguniang。

来源：至顶网码客人生频道

0赞

好文章，需要你的鼓励

阿里数学竞赛决赛落幕，宣告AI大模型短期内仍是文强理弱？ 原创

伴随着过去一年大模型的火热，本届阿里数赛首次允许AI参赛--任何形式的AI都可以，无论是自己从头训练的模型，还是调用API。

来源：至顶网码客人生频道

2024

06/27

10:14

分享

点赞

特斯拉疑似删除FSD证据，卡特彼勒加速电动化布局，高压系统技术培训刻不容缓

智能体网络流量首超真人访问，"死亡互联网"理论引发新争议

Mentium Technologies Luna-R1 AI芯片入选ET-01星座任务，完成多星部署里程碑

汤道生×姚顺雨：腾讯AI下半场，拼的是“模型×产品”系统能力

AI驱动网络犯罪数量飙升，勒索软件受害者年增389%：Fortinet 发布2026年全球威胁态势研究报告

Inbolt将在Automate展会发布视觉驱动机器人编程新功能

笔记本电脑深度清洁指南：内外兼修焕然一新

加利福尼亚州城市通过全美首个由选民投票决定的数据中心禁令

柴油替代方案：AI数据中心如何利用燃气引擎与蒸汽涡轮供电

AI定义汽车时代，车载以太网可靠性面临全新挑战

安全算法的持续更新正变得愈发困难

轨道数据中心本质上是功能强化的卫星

2024中国AI Agent研究综述

性能秒杀SD3、DALL·E-3，开源文生图模型杀出大黑马

AI 大模型催生的新职业，提示词工程师是什么？

阿里数学竞赛决赛落幕，宣告AI大模型短期内仍是文强理弱？

趋势丨可穿戴设备，会是AI个人化的最后一块拼图吗？

大模型现状和未来：百模征战，产业智能跃迁（2024）

至顶科技大模型应用场景报告：“繁花”下的“消幻脱困”

城市智能体+AI，赋能城市智能化

三大维度联合共创！华为云盘古大模型零售行业联创计划发布

对话钢铁侠科技张锐：全球只有三个团队，跨入了人形机器人应用阶段

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

阿里数学竞赛决赛落幕，宣告AI大模型短期内仍是文强理弱？原创