为什么这期播客值得关注
Anthropic的核心研究员Sholto Douglas两周前参加了The MAD Podcast with Matt Turck的深度访谈中,首次详细揭秘了Claude Sonnet 4.5如何成为世界最佳编码模型的幕后故事。
更重要的是,他用大量具体数据和一线经验,系统性地反驳了"AI已达瓶颈"的流行观点,并给出了一个大胆预测:2-3年内AI将在大多数计算机任务上达到人类水平。
Sholto非常年轻,但他有从Google Gemini团队到Anthropic的经历,让他对大型AI实验室的运作、技术突破的本质、以及行业真实进展有一手认知。
Noam Brown(Diplomacy AI论文CICERO的主要作者,现任OpenAI研究科学家)曾评价Sholto:"他进入这个领域才1.5年,但AI圈内的人都知道,他是Gemini成功背后最重要的人物之一"——而Sholto在Google期间联合领导了Gemini的推理基础设施建设,前6个月就为项目节省了数亿美元。
还有一个小插曲,2017年秋季,Sholto作为澳大利亚政府New Colombo Plan的奖学金获得者,曾来中国进行为期一年的交换学习,时间分别在北京和香港。他在清华大学学习了计算生物学、强化学习、理论机器学习和发展经济学——这在2017年是相当前沿的课程组合,那时强化学习还远没有今天这么主流。
Sholto还曾在Zeroth.AI(一家风投机构)和京东实习,涉及设计AI加速器等工作,在加速器项目的前期阶段,帮助被资助的初创公司学习和实施最先进的机器学习,组织它们的基础设施。
我个人比较同意他对AGI的简洁定义:在大多数面向计算机的任务上比大多数人类更好。如果用我的表达,会是:比人类更擅长使用计算机的计算机就是AGI。而更多类似超越智力超越人类、能够独立做出科学发现、让发达国家经济重回高位增长等定义要么太模糊,要么太遥远。
一、从击剑到AI:完美导师制如何塑造世界级研究员
在澳大利亚长大的"非传统"优势
Sholto的故事从一个看似不利的起点开始。在澳大利亚,传统路径极其固定:成为律师、医生或进入金融业。澳大利亚生活质量太高了,以至于人们选择这些默认路径就能过上很好的生活,很少有人冒险。
但Sholto有一个秘密武器:他的母亲。她在南非学医并做急诊医生,但一直想在公共卫生领域做系统性变革,却因为当时女性的困境无法实现。于是,她把所有的导师能量都投入到儿子身上。当Sholto去中国做交换生时,母亲给他准备了"这么厚一叠"关于中国社会经济、不同领域情况、初创生态系统的资料。"我拥有持续的、支持性的、美妙的教育驱动力"——这是一种完美的学术导师制,让他很早就理解"深度研究"是什么样子。
击剑:通过重复努力成为世界最佳的证明
Sholto通过击剑获得了另一种形式的完美导师制,这段经历塑造了他对"如何变强"的理解。他的最好成绩是世界排名第43,进入前50。关键因素是他的教练刚刚带领意大利队拿下奥运金牌,因为妻子(罗马尼亚人)在意大利遭受歧视而移居澳大利亚。"我因此有了一个在世界上最顶尖的教练"。
这段经历给了他三个核心认知。首先是YouTube时代的学习革命——你可以在YouTube上观看世界顶尖选手,分析他们的动作,然后复制。"只需要付出巨大的努力,你就能成为那个世界的一部分。" Sholto笑着说,这某种程度上就是早期的强化学习体验——"做这个、做那个",通过反馈不断调整。他还注意到一个跨领域现象:无论什么运动,现在的孩子都比上一代强得多,YouTube让每个人都能获得完美的导师。
从机器人到AGI的顿悟时刻
本科学计算机和机器人学时,Sholto还没有明确方向。"我模糊地想做些像马斯克那样的事——造火箭、造特斯拉,但没有具体想解决什么问题。" 转折点是读到Gwern的一篇关于scaling的文章,详细阐述了scaling hypothesis(规模化假说)。"哦我的天,这绝对清楚了——AGI在未来十年的进展将是世界上最值得投入的事情之一。" 这是我们拥有的、能够真正推进世界的最大杠杆。那是本科最后一年。
从那之后,他开始在晚上和周末做自己的研究,尝试规模化机器人操控——在卧室里训练机器人的通用基础模型。这现在是个大热方向,有很多通用机器人基础模型公司,但当时还很早。他自己搭建模拟器、收集遥操作数据、训练模型,还从Google借到了TPU。最终,Google的一些人注意到了他的工作,主动联系说:"这工作很棒,你想来和我们一起做吗?"
学术系统的失败与另一条路
讽刺的是,Sholto申请的PhD项目都被拒了。但这恰恰说明了一个重要问题。在美国,本科生能做出ICLR论文级别的研究,因为有导师、有研究文化。但在澳大利亚,连PhD学生都没去过顶会。Peter Abbeel去访问时问"谁要去欧洲顶会",没人举手,连PhD学生都不举手。这意味着缺少导师制,无法培养"问题品味"(problem taste),所以拿不到学术系统认可的信号。
但这个"失败"反而打开了另一条路。Sholto入职Google的时机完美——大约在ChatGPT发布前一个月。整个公司突然被迫快速反应,Gemini项目是从谷歌大脑Google Brain和DeepMind合并中锻造出来的,指挥结构还不完善。这意味着巨大的agency(能动性)空间——搞清楚需要做什么,尽快做出来,组织人一起解决重要问题。
他的第一个大胜仗是从零设计Gemini的推理栈(inference stack),因为旧系统完全不适合现代LLM。这个项目前6个月就节省了数亿美元。更重要的是,这让他被信任去解决既有技术挑战、又有公司政治挑战的问题——因为旧系统的所有权分散在五六个团队,实际推动变革非常困难。后来,当推理(reasoning)计划启动时,他负责研究基础设施,要搭建一个能支持大规模强化学习和推理的代码库。
Sholto在这段访谈中强调了一个反传统的观点:在AI研究领域,好的博客文章有时比PhD更有信号价值。他举了一个最爱的例子:Simon Bow,Anthropic性能团队的负责人之一,他发布了迄今为止最佳的CUDA kernel优化指南。"这简直就是世界上最好的CUDA kernel指南。" 如果有人为retention机制做出这样的指南,Anthropic会立即发面试邀请。最近就有人做了TPU上的retention实现,他们马上联系了对方。
核心原则是:用世界级的成果证明你有agency(主动性)和taste(品味)。满足"真正有效"标准的人,远远多于拥有"正确信号"能进入学术生涯下一阶段的人。这在澳大利亚尤其明显——那里缺乏研究文化,没有导师帮你培养问题sense,所以传统学术信号失效。
二、AI进展的真相:指数曲线上的三个被忽视的事实
发布节奏就是进展速度的最直观证据
访谈一开始,主持人Matt就提到了一个时间感知错觉:Claude 3.7 Sonnet感觉像是去年的事,但其实只是今年2月发布的。如果你问任何人,他们都会觉得那是更久之前的事。这种时间压缩本身就说明了什么——进展速度已经超出了我们的感知系统。
Sholto解释说,现在进入了一个"双范式时代"。过去只有预训练规模化(pre-training scaling)这一条路,现在加入了强化学习规模化(RL scaling)。"这给了你更多机会来更新模型,因为你可以沿着多个前沿推进。" 每个维度的进展都可以触发一次模型发布,所以自然会更频繁地推出新版本。
但更关键的是计算供应的问题。Sholto说了一个很多人没意识到的事实:"即使你在去年非常想要芯片,也不可能得到——因为TSMC的产能早就被订满了。" 芯片制造有漫长的前置时间,从下单到交付可能要一年多。ChatGPT是2022年11月发布的,那之后的投资潮,其计算红利现在才开始兑现。所以他说:"Finally this year is where the compute super cycle is beginning properly"(终于在今年,计算超级周期才真正开始)。
这解释了一个关键矛盾:为什么很多人觉得"已经投了这么多钱,怎么还没看到相应的进展"。因为你现在看到的成果,是去年甚至前年的算力在起作用,真正的大额算力刚刚到位。按照这个逻辑,未来一两年的进展速度,应该比过去一年更快。
Opus、Sonnet、Haiku:一个反直觉的现象
Anthropic的模型分三个档次:Opus是最聪明的模型,Sonnet是中档模型,Haiku是最快、最便宜的模型。但这次有个有趣的现象:Sonnet 4.5比Opus 4.1更聪明。这不是第一次发生,去年也出现过。
Sholto解释了背后的逻辑。训练中档模型更便宜,所以你可以在上面做大量实验和快速迭代。最终你需要决定什么时候"scale up"到大模型,享受规模带来的好处。但往往你在中档模型上进展太快了,以至于新的中档模型已经超过了之前训练的大模型。这是快速进展的一个标志——在你花时间训练一个超大模型的功夫,中档模型的技术已经跃进了一大步。
强化学习也改变了游戏规则。过去只能靠增大模型来提升能力,现在可以"用强化学习来extend一个模型"。这让你能把中档模型训练到和6个月前或3个月前的大模型一样好。Sholto说这是强化学习范式的一个反映,你可以拿一个模型,用RL来扩展它的能力,基本上就是这样。
"我们到达瓶颈了"——每个月都有人这么说
Sholto直接点出了一个让他哭笑不得的现象:"People have said that we're hitting a plateau every month for the last three years"(过去三年,每个月都有人说我们到达了瓶颈)。但如果你回头看这三年走过的路,进展是惊人的。
为什么会有这种认知偏差?一方面是对比基准在快速移动。当一个新模型刚发布时,它的能力让人震惊。几个月后,人们已经习惯了这个能力水平,开始挑剔它做不到的事。再过几个月,新模型出来,循环重复。所以每个当下都有人觉得"这次是真的遇到瓶颈了"。
另一方面是基准测试的饱和陷阱。比如SWEBench已经接近"饱和"——模型得分都很高,很难区分不同模型的差异。"当基准测试不再能区分高能力模型的差异时,它就失去了效用。" 但这不意味着能力停滞,只是这个测试不够难了,需要不断创造新的、更难的基准。
训练流水线:用胶带粘起来的原始系统
Sholto给了一个极其生动的对比,这可能是整个访谈最有冲击力的类比。前几个月他和朋友去航海,船的设计让他惊叹。"这显然是几个世纪、甚至千年的人类智慧和努力的积累。" 每个部件、每个设计都经过了精心打磨和验证。你很难在今天的最佳帆船设计上做出实质性改进,因为它已经是成熟技术。
但当他看LLM的训练流水线时,感受完全不同。"It is a primitive pipeline held together by duct tape and the best efforts and elbow grease and late nights"(这是一个原始的流水线,靠胶带粘在一起,靠着最大的努力、苦干、通宵工作在运转)。"There's just so much room to grow on every part of it"(每个部分都有巨大的成长空间)。
这意味着什么?现在的AI进展,是在一个极其不成熟的工具链和方法论基础上实现的。这就像在用石器时代的工具建造现代建筑——已经能造出摩天大楼了,但工具本身还有10倍、100倍的改进空间。当前的训练流水线只有2年半的最佳实践积累,充满了最后一分钟的紧急修复、权宜之计、没有被系统性优化的环节。
这就是为什么Sholto坚信"我们完全不在瓶颈附近"。不是因为有什么突破性的新技术在等着发现,而是现有技术的执行流程本身就太粗糙了。
可测量的一切都在快速改进
Sholto反复强调一个被忽视的事实,他甚至说"这值得从屋顶上大喊"(worth crying from the rooftops)。"Anything that we can measure seems to be improving really rapidly"(任何我们能够测量的东西,似乎都在快速改进)。
拿SWEBench来说,这是衡量编码能力的当前标准基准,测试的是真实世界的GitHub拉取请求——相当于软件工程师几个小时的工作。一年前,整个行业在这个基准上还不到20%,现在Sonnet 4.5达到了78%。这不是边际改进,这是质的飞跃。
还有Meter评估,它标注了人类完成各种任务需要多长时间,然后测试AI能在多长时间范围内保持连贯性并完成任务。发现是什么呢?大约每6个月,AI能连贯工作的时间跨度就翻一倍。虽然这个基准有局限——只测简单任务、只要50%成功率——但方向是明确的。
长上下文也是一个好例子。两年半前,8000个token被认为是"长上下文"。现在模型可以用30000个token进行推理。这种长期连贯性的出现本身就违反了很多人的预期。
OpenAI发布的GDP评估覆盖了经济各部门的任务,Claude Opus 4.1在所有领域都名列前茅。这说明虽然Anthropic聚焦编码,但核心能力是通用的。Sholto的判断标准很清晰:如果真的遇到根本性瓶颈,应该是某个投入大量努力的领域一年都没有进展。但现实是:"每次我们创建一个新基准来测量我们关心的东西,进展都极其迅速。"
三、30小时自主编码:从"能做"到"能独立做完"的跨越
一个Slack克隆是怎么被造出来的
Claude Sonnet 4.5最令人震惊的展示是:给它一个任务,比如"构建一个类似Slack的团队协作应用",它可以独立工作30小时,最后交付一个真正能用的产品。Matt在访谈中都忍不住说:"Incredible"(难以置信)。
但Sholto强调,这不是简单的"让模型跑久一点"。"模型就是坐在终端前,在一个循环里不断决定下一步做什么。" 它在读文件、写代码、运行测试,就像人类开发者一样。关键是它能判断当前代码还缺什么功能,然后决定接下来处理什么。
具体来说,模型可以使用所谓的"工具"(tools)——比如read_file、write_file、run_code_in_terminal。它处于一个持续循环中,不断查看当前代码,决定"哦,这部分还不能做这个,所以我接下来要处理那个"。这听起来简单,但要让模型在30小时的跨度内保持这种连贯性和目标导向,是个巨大的技术挑战。
记忆系统:模型学会了写待办清单
Sholto特别兴奋地提到,这次发布他们终于教会了模型使用"记忆"(memory)。"模型能够创建一个markdown文件,记录待办事项和它认为重要的事情,勾选完成的任务,继续处理下一个,检查是否完成。" 这形成了一个自我验证循环。
这个突破看似简单,但意义重大。想象你要自己从头写一个类似Slack的应用,你不可能在脑子里一次性想完所有细节,然后一口气写出来。你会列一个清单:前端界面、用户认证、消息系统、频道管理、实时通信……然后一个个攻克。模型现在也学会了这种工作方式。
更重要的是,这让模型具备了自我纠错能力。"一年多前,人们担心语言模型会偏离轨道,无法自我纠正,这会彻底破坏它们的实用性。" Sholto说,现在的代理令人震惊的一点是,"它们在自我纠正方面异常出色"。这种涌现能力(emerging ability)已经相当有帮助了。
从7小时到30小时:品味和上下文的突破
Opus 4.1可以运行大约7小时,4.5跳到了30小时。Sholto解释说,他们经常问自己的问题是:"什么东西阻止了模型工作更长时间?你什么时候需要介入?" 他用了一个特斯拉的类比——就像自动驾驶需要人类监督一样,现在你需要经常介入,但通常不是因为模型不会编程。
关键问题在于"品味"(taste)和"上下文"(context)。模型有时会走捷径,有时会在局部上下文中做出看似合理但在全局架构上不合理的改动。"它做的是局部上合理的改变,但实际上在它试图实现的全局上下文中没有意义。" 就像一个程序员专注修一个函数,却忘了这个函数在整个系统中的作用。
Sholto说,很多改进——已经做的和还要做的——都集中在这个"品味和上下文"问题上。要让模型更好地决定程序整体结构的聪明事情,不走捷径,写出好代码。什么是"好代码"?不只是能跑,而是易于后续修改、适合多人协作、结构清晰的代码。
记忆管理也变得至关重要,因为模型最终会耗尽上下文窗口。"你不希望模型不断重新发现关于某个系统或代码库如何工作的事实。" 能够有效管理记忆、从经验中学习,这会大大提升长时运行的能力。
一个关于编码品味的第一性原理思考
Sholto提出了一个有趣的问题:你可以想象Anthropic发起一个大规模努力,让人类软件工程师来教模型什么是好品味、什么是坏品味。但这真的是最好的方法吗?
"软件工程中的品味从哪里来?我们认为什么是好品味?" 通常是因为它能轻松地为未来的改变做好准备,或者是易于多个代理之间沟通和协作。"好的抽象往往是这样的——你和我可以一起在一个代码库上工作而不会冲突。"
所以这里有个问题:是应该让软件工程师来决定什么是好是坏,还是应该创建一个"模型社会",让多个模型一起在一个巨大的代码库上工作,如果它们互相争执说明代码不好?"你可以想象潜在策略的光谱,选择正确的一个是件困难的事。" 这就是"品味"在AI研究中的作用——在不完美信息下做出正确的方向判断。
为什么30小时不是上限
Matt追问:什么样的任务可以用30小时完成,而用更短时间完成不了?Sholto说,那个类Slack的应用就是个很好的例子。"它是一个重要的软件,是真正端到端工作的软件,而不是MVP演示。"
机器学习实验也很有趣。你想要一个能够提出实验、写代码、运行初始测试、稍后回来检查的东西。"这真的大大打开了世界。" 基本上,这让你能得到可工作的软件,而不只是演示。
但Sholto很诚实地补充:"我不是说模型现在就能给你造出完整的工作软件,对吧?它不会给你造出一个Slack竞品。" 但Anthropic做的那个AI演示视频展示了进展——从基本上只能做线框图和漫画化,到现在能做出完全功能的网站,而且是自主构建的。
那个演示复制了claude.ai,包括artifacts功能——一个复杂的特性,让模型能写代码,然后代码结果在浏览器中显示。Sholto记不太清那个花了多久,可能几个小时。"但基本上,把这当作这个能力的第一个蹒跚学步的尝试。有时能用,有时不能。在接下来的6个月、一年里,预期会有巨大进展。" 他让大家看看一年前我们在哪里,现在在哪里,差异有多大。"我预期会有同样的跳跃。"
四、大型AI实验室的真实运作:Anthropic为什么如此聚焦编码
DeepMind vs Anthropic:两种截然不同的押注策略
Sholto在Google和Anthropic都工作过,这让他对不同实验室的文化和战略有着罕见的清晰认知。Matt问了一个很多人好奇的问题:从外界看,所有大型AI实验室似乎都很聪明,都有相同的资源,关注相同的问题,但为什么结果会不同?
Sholto的回答很直接:"确实有真实的差异。" 他用DeepMind举例。"如果你想用AI解决科学问题,DeepMind是世界上最好的地方。" 这不是客套,而是基于事实的判断。DeepMind会直接为AI带来的科学发现做出比任何其他组织都多的贡献。它在各个方面都完美地设置好了——既有直接的科学努力like AlphaFold和材料科学工作,也有让AI成为科学家的大规模努力。
相比之下,Anthropic一直laser-focused在两件事上:长期AI对齐(alignment)和近期经济影响。Sholto说得很具体:Anthropic一直聚焦编码、计算机使用(computer use)和那些我们认为会在接下来6个月内直接影响经济的东西。
一个明显的例子是数学推理。"Anthropic显著地没有像DeepMind和OpenAI那样关注数学推理。" DeepMind和OpenAI追求数学推理,是因为它对科学有影响,也因为那里的很多人深爱数学,想看到这个领域进步。"我们不得不reluctantly(不情愿地)牺牲对这个领域的关注,因为我们想关注模型的近期经济影响。"
在研究方法上也有差异。Anthropic是一个非常focused的押注。"我们认为AGI在接下来几年内就能实现,我们认为是当前范式或与它们不太不同的东西。" 可能会有一些新东西,但不会是什么疯狂的、遥远的研究计划。过去五六年,Anthropic的精神一直是:用大致当前的技术规模化计算,AGI在这些界限内是可实现的。
DeepMind则有更广泛的科学文化,因为它有资源这么做。"Anthropic必须是一个focused bet,DeepMind有时间和空间去押注真正在当前范式之外的东西。" 这不是说Gemini不focused——Gemini本身是个非常focused的押注,涉及大约1000人。但如果你看整个DeepMind,还有10000多人在做各种真正的长期基础研究。
为什么痴迷于编码:一个递归的策略
Matt追问了一个关键问题:为什么Anthropic如此聚焦编码?Sholto的回答揭示了一个深思熟虑的战略逻辑,有两个层次。
第一个原因是加速AI研究本身。"我们认为这是能让我们更快地在AI研究中帮助自己的东西。" 这里有一个"自动化AI研究"的概念。Sholto说,他们认为进展速度(speed of takeoff)最重要的驱动因素之一,是AI能多大程度上辅助AI研究。"所以prefetch(预取)这个能力真的很重要。"
这是一个关键的递归逻辑:如果AI能帮助做AI研究,那么进步会自我加速。编码是AI研究中最容易自动化的部分——实验设计、数据处理、模型训练、结果分析,这些都大量依赖代码。所以让AI先在编码上变强,就是在为加速整个研究循环做准备。
第二个原因是经济可持续性。"Anthropic要成为一个可持续的研究计划,能够研究我们认为重要的事情,需要经济回报。" 这听起来很现实主义,但Sholto解释得很清楚。编码是一个巨大的市场,充满了真正非常热衷的早期采用者,他们喜欢尝试和切换工具,真的很兴奋去玩新工具。
而且,"世界对软件的需求远远超过优秀软件的供给。" 这在以前每次迭代中都能看到——编译器、Web抽象等等,每次都有软件需求的爆炸式增长。所以编码市场既大,又有强烈的需求,还有完美的早期采用者群体。
为什么编码是最tractable(可处理)的问题
Sholto详细解释了为什么模型在编码上比其他领域更早变强。"编码在某些方面是一个独特tractable的问题,考虑到我们拥有的技术。"
首先是数据。编码的数据在很多方面是存在的——GitHub上有海量的代码、问题、拉取请求。其次是可以容器化和并行运行。第三,也是最关键的,"你可以运行单元测试,所以你可以验证某些东西——当它工作时你就知道它工作了。"
Sholto用自动驾驶做对比。"自动驾驶是独特困难的,对吧?你需要车第一次就工作,差不多是这样。" 而在编码中,模型可以失败100次,只要它成功一次就行。这种tractability(可处理性)、replayability(可重复性),在其他接触真实世界的领域中是不存在的。
他举了另一个例子:"你不会想要一个AI律师为你辩护案子,对吧?因为如果它搞错了案子怎么办?对不起,太糟糕了。" 但编码不一样。你可以让模型试很多次,可以运行测试,可以在安全的容器环境里实验。当技术发展时,编码是独特tractable的。
"你可以看到这一点,对吧?已经有很多人,包括我自己,在使用AI工具写代码时生产力大幅提高。" Sholto提到他有个朋友管理着9个Claude Codes(Anthropic的命令行编码工具)。"这是个疯狂的数字。我不知道他怎么做到的。我只能处理2个。也许是我的技能问题。"
五、"品味"在AI研究中到底意味着什么
不完美信息下的判断艺术
Sholto在访谈中反复提到"taste"(品味)这个词,Matt专门问了这个问题:在AI研究中,品味到底意味着什么?Sholto说他和一个生物学家朋友讨论过这个话题,比较了生物学研究和ML中的品味异同。
"最重要的一点是机械性地理解你到底在试图做什么,并且有一个重要的简洁性正则化器(simplicity regularizer)。" 当你思考ML中的品味时,它往往是让你在信息不完美时决定大规模训练应该包含什么的关键因素。
这里的挑战很具体。我们可以深入研究一个架构改动的影响,但过了某个规模点,你必须猜测这个改动是否会与其他改动复合、是否会冲突——因为你不能测试完整规模的运行N次。你只有一次机会。
这就像生物学研究中的情况。如果你在开发一种新疗法,你可能在细胞、小鼠、模式生物中测试,但这不能保证它在人类身上有效。你在多个规模、多个模式生物上测试,在细菌、小鼠、猴子上似乎都有效,这给你很多指示它会在人类身上有效,但不是保证。
在ML中也完全一样。你有不同的模型规模,你搞清楚某个方法在这些模型规模上都带来了好处。"我认为它应该能工作,因为从机械上我理解这对模型的学习动力学在做什么。" 然后你就可以有信心它会work。但如果是"哦,这是个hack,我们不太理解它怎么工作,而且它很复杂,在代码里引入了一堆东西",那你就没有信心了。
卷积神经网络的教训:先验的代价
Sholto用卷积神经网络(CNN)vs Transformer的例子来说明品味和"苦涩教训"(bitter lesson)。"在ML中,你可以想象这样:CNN编码了一个先验——相邻像素彼此相关。" 这是个非常合理的先验,因为如果你给AI模型扔一张图片,什么都不告诉它,它必须学习相邻像素形成曲线,然后曲线形成其他东西,有一个抽象的层次结构。
所以对于绝大多数图像,在一定规模之前,CNN会比更通用的vision transformer更好。"但过了某个点,实际上你需要能够灵活地整合整张图片的信息。" 类似的语言例子可能是:我们知道很多关于语法的东西,所以你可能想把句子分解成成分——动词、名词以及它们如何相互关联——并为你的AI算法提供那个显式结构。
"但当你想让模型写诗或写代码时会发生什么?突然间这些假设必须被扔掉。所以你不能在诗歌、代码和写作之间泛化。"
这就是Richard Sutton的"bitter lesson"的核心:几代人开发了聪明的方法来编码他们认为人工智能应该如何推理的先验,把它编码进模型,但所有这些都被规模化冲走了——能够利用计算的东西,特别是搜索和学习,会洗掉所有的小tweaks。
只有10%的想法会成功——即使是天才也一样
Matt问了一个很现实的问题:在Anthropic这样的公司,一个想法失败的频率有多高?Sholto的回答很诚实。"我曾经问过Noam Shazeer这个问题,他说'是的,可能我10%的想法能work'——那可是Noam,对吧?" Noam Shazeer是这个领域的绝对天才之一。"所以如果只有10%的他的想法work,那就为其他人的想法成功百分比设定了一个界限。大多数不会成功。"
这解释了为什么Anthropic和DeepMind都非常努力地建立一种"安全实验的文化"(culture of safe experimentation),人们被信任去长时间探索想法。"你往往需要几个月的独立研究来真正证明一个新颖的研究方向,一个显著不同的方向。"
这很难,Sholto说,特别难的不是实验的计算成本,而是时间和专注的成本。因为在当前架构和范式中还有太多剩余的胜利,还有太多低hanging fruit。一个真正高ROI的时间使用方式可能是去看看数据,认真思考模型在学什么或做什么,做一些调整。"甚至最简单的事情都仍然能带来巨大收益。"
所以要求人们或给人们时间和空间去呼吸,说"我们知道有短期的事情你可以做,但实际上我们想让你尝试开发一个更通用或更基础的技术,让你在未来能够可扩展地做这件事"——这很重要。在做能规模化的事情和做不能规模化的事情之间有这种张力。
Anthropic不押注疯狂的新架构
Matt问了一个尖锐的问题:Anthropic有人在深入研究完全不同的方向吗?比如非Transformer、非RL的东西?
Sholto的回答很坦率。"这是Anthropic和DeepMind略有不同的另一个方式。Anthropic是一个非常focused的押注。" 我们认为AGI在接下来几年内就在触手可及的范围内。我们认为是当前范式或与它们不太疯狂不同的东西。可能有一些新东西,但不像是一些疯狂遥远的研究计划。
"真的,过去五六年Anthropic的精神一直是:用大致当前的技术规模化计算,AGI在这些界限内是可实现的。" DeepMind有更广泛的科学文化,因为它有资源这么做。Anthropic必须是一个focused bet,DeepMind有时间和空间去押注真正在当前范式之外的东西。
"取决于你想问的问题类型——你是认为真正focused的押注更好,还是对不同新架构的广泛探索更好——这是研究精神的差异之一。"
六、强化学习为什么突然起作用了:简单到让人怀疑的方法
2024年的突破:终于找到了正确的简单方法
去年底到今年初,AI领域发生了一个重要转折点——强化学习在大语言模型上终于真正起作用了。Sholto认为OpenAI发布O1(第一个serious的RL+LLM产品)应该获得很多credit,"这真的kick off了一个相当显著的变化,因为它开辟了新的规模化维度。" 过去只有预训练规模化,现在有了测试时计算(test-time compute)和RL规模化。
但这不是凭空而来的突破。"所有研究实验室已经在研究这个了。" DeepSeek能这么快跟进的一个原因是,他们实际上已经在做RL on language models之前就发表过相关论文了。"所以这已经是空气中的一个想法,但OpenAI应该得到credit,因为它结晶了这个想法,发布了它,并详细说明了第一个公开存在的规模化定律。"
为什么2024年才work:三个门槛同时被跨越
Matt追问了一个关键问题:RL不是新概念,Richard Sutton在这个领域工作了几十年,AlphaGo那条线也非常成功。那为什么2024年才在LLM上突破?
Sholto的回答揭示了一个有趣的悖论。"某种程度上很好笑。" 拿DeepSeek的论文来说,他们详细说明了一个work的方法,也说明了很多不work的方法。"实际上,一些不work的方法是让AlphaGo成功的方法。"
"关于verified rewards regime(验证奖励机制)下的RL on language models,最疯狂的一点是它几乎是最简单可能的东西。它几乎太简单了以至于不应该work。" 这又回到了品味问题。很多人认为这太简单了不可能work,所以他们尝试了更复杂的方法,这些方法最终更难让它work。可能那些方法里还有juice(潜力),但重要的是先把简单的东西搞定。
Sholto列举了几个关键门槛。首先是LLM质量的最低门槛。你需要模型能够解决有意义难度的编码和数学问题,然后才能有那个反馈循环——你解对了这些、解错了那些。两年半前的模型还不够好。
其次是长期连贯性的意外能力。"我认为也许违反直觉的一点是那些推理token链。" 人们长期以来认为你需要做一些clever的事情来给模型长期连贯性。要记住,两年前8000个token就是长上下文了。"现在模型用8000或30000个token来推理某个东西。"
所以有了这个真正的相变:哦,语言模型足够聪明了,它们可以解决合理困难的问题。它们在更长的上下文中实际上相当连贯,比我们想的更连贯。而且这种在长token链中推理的能力可以用正确的反馈信号自然涌现。
推理能力会自然涌现——这违反直觉
"这有点违反直觉。我认为大多数人不会直接预期推理能力会自然涌现。" 有很多想法认为你必须结构化它,必须为它提供推理策略,必须建立所有这些东西,提示和暗示等等。
"实际上结果是,不,你给它数学问题,告诉它对错,模型就会学。" 这又回到了bitter lesson、规模化和搜索——只要让模型搜索,有足够的计算来运行实验,模型实际上最终会找出真正有效和合理的策略。
Sholto总结了让RL在LLM上work的必要条件:最低基础模型质量、最低量的RL计算、对长期连贯性的信任和能力、做简单work的事情。"这些听起来都很明显,但实际上有时候有点违反直觉。"
预训练vs RL:一个谁都能懂的类比
Matt请Sholto用简单英语解释预训练和RL的区别。Sholto给出了可能是最清晰的类比:
"一个理解预训练和RL高层次的好方法是:预训练就像快速浏览世界上所有的教科书,RL就像做课后习题并得到对错反馈。"
然后他解释了为什么有些能力只能通过RL学到。最好的例子是"说不知道"这个技能。"在预训练中,记住你在建模——你试图预测所有这些教科书、整个互联网中接下来会出现什么文本。" 所以你作为预训练模型说"我不知道"的唯一原因,是如果你认为你在文本中建模的角色会说"我不知道"——不是基于你实际上不知道,而是基于你认为你从可能建模的角色里抽取的那个角色会说不知道。
"而在强化学习中,你理论上可以设置一系列测试,有些是模型知道的事情,有些是模型不知道的事情,你可以奖励它正确回答它应该知道的事情,惩罚它在不知道时错误回答。" 然后它会学习做的是:它会学会在内部查找信息,并评估自己对是否知道那个信息的信心。
所以说"我不知道",或解决幻觉问题,在很多方面intrinsically需要强化学习。这是只能通过RL学到的一整类能力。
测试时计算:让模型能做更难的题
Matt继续追问:测试时计算(test-time compute)和RL如何overlap(重叠)?
Sholto的解释很清楚。"思考这个的一种方式是:测试时计算是做大量推理,然后RL是关于那个推理对错的反馈信号。" 测试时计算是一种回答对你来说难以回答的问题的方式。
比如说他问你一个你能脱口而出的问题,你知识库里的东西,或者来自你真正了解的领域的启发式方法,或者你已经做过的启发式方法——你已经把它baked into你的肌肉记忆了。"但对于真正需要你思考和学习的东西——比如你刚开始学数学时,如果我现在问你一个基本的乘法表,你可以立即说出来。但如果你是个孩子,你必须算出数学,做所有这些事情。" 你需要做推理链来学习它。
然后你得到对错的反馈。所以测试时计算让你能做比你现在能脱口而出做的更难的问题,RL然后让你把那个distill(蒸馏)回模型。这几乎像个梯子——你可以不断做稍微更难的问题,因为你在学习策略来做越来越难的问题。
七、AGI离我们有多近:一个具体的定义和时间表
"在大多数面向计算机的任务上比大多数人类更好"
Matt问了那个终极问题:你的个人sentiment是,越来越强大的LLM加上RL,会把我们带到AGI吗?
Sholto的回答很直接。"我认为是sufficient(足够的)。" 当然有个明显的问题是"那里"实际上意味着什么,今天AGI意味着什么。可以用几个定义,Sholto认为有用的一个是:"在大多数面向计算机的任务上比大多数人类更好。"
"因为我认为那是世界的一个真正重要的时刻,我们说'好吧,知识劳动可以通过这套算法来解决',那完全改变了世界。" 还有其他更强的定义可以用。Matt说"更强?那个已经相当强了",Sholto解释说,他的意思是"更难达到"。
因为你可以有这个,但它仍然可能不像人类那样有效学习。"我们从很少的例子中学习和泛化。我们有难以置信的高样本效率(sample efficiency)。" 而AI模型需要几百或几千倍更多的经验——基本上几百几千个lifetime来学习我们学习的东西。
"但它们在那几千个lifetime中,确实学会了我们学的技能,达到难以置信的高准确度。" Sholto认为过去一年的一个重要变化是,RL终于意味着我们有了一个算法,让我们可以拿一个反馈循环,把它变成一个至少和最好的人类一样好的模型——在一个狭窄领域。你在数学上看到这个,你在竞赛编程上看到这个,这是两个最适合这个的领域。
没有智力天花板:竞赛数学和编程的证明
"竞赛编程和数学没有intrinsically不同的东西。只是它们真的适合RL,比任何其他领域都适合。" 但重要的是,它们证明了模型没有智力天花板——它们能够做真正困难的推理,只要有正确的反馈循环。
所以Sholto他们认为同样的方法会泛化到基本上所有其他人类智力努力的领域。只要有正确的反馈循环,这些模型会变得足够好,至少和最好的人类一样好。"然后一旦你有了一个至少和最好的人类一样好的东西,你可以并行运行1000个,或者快100倍,你就有了实质上比任何给定人类都智能得多的东西——即使只有那个条件。"
这完全抛开了是否可能制造出比人类更聪明的东西。"这似乎完全可能,对吧?大脑最终是一个生物计算机。似乎可能制造出更好的。" 但这个的implications(含义)是相当惊人的。
"在接下来的两三年,只要有正确的反馈循环、正确的计算、正确的苦干等等,我们认为整个AI行业有望创造出在大多数面向计算机的任务上至少和大多数人类一样有能力的东西,可能在他们的领域和我们许多最好的科学家一样好。"
这真的很wild。它会是sharp and spiky(尖锐和不均匀)的——会有它不能做的事情的例子等等,但世界会改变。
对"样本效率不足论"的回应
Matt提到了Rich Sutton或Yann LeCun似乎在说需要不同的方法,或者只要RL。Sholto的回应很nuanced(细致入微)。
"确实,我们的模型学习效率远不如人类,对吧?它们需要几千个lifetime来学习。但这没关系,因为它们可以在模拟中或在一千家公司做工作中生活那几千个lifetime。"
他认为也许应该disentangle(解开)两个论点。一个是architecturally(架构上)Transformer是不够的。"我认为那不是真的。我认为我们还没有真正发现Transformer不能建模的东西——只要有足够的数据和足够的计算。" 他认为RL作为一个objective(目标)是相当强大的。Rich Sutton实际上是RL作为objective的大粉丝。他只是认为我们实际上在用预训练编码了太多先验。
关于"不是世界的充分表征"——Sholto说到目前为止,证据表明我们当前的方法还没有发现一个用足够努力就不tractable的问题领域。能让他改口的是,如果有某个我们投入大量努力的领域,一年都不动,benchmark就是不动,我们就是无法取得进展——那他会说"好吧,这里有一些基本限制"。
"但相反,我不断看到的是:每次我们做一个测量我们关心的东西的benchmark,沿着那个的进展都难以置信地快。" 所以他认为这值得大声疾呼一点——"任何我们能测量的东西似乎都在快速改进。两三年后那会把我们带到哪里?我不能确定地说。但我认为值得把这个建立到世界观里:有相当serious的可能性我们会得到AGI。"
大多数人没意识到我们在指数曲线上
Matt说这很有趣,因为过去三四个月在线阅读的东西有个主题——"我们到达了瓶颈",但Sholto基本上在说相反的话——我们在指数曲线上,很多人没意识到这是事实。
"完全正确。" Sholto重申,过去三年每个月都有人说我们到达了瓶颈。如果你看我们过去三年走过的路,那是难以置信的。
他说让他觉得"天啊,我们完全不在瓶颈附近"的另一件事是:"我看这些模型是怎么生产出来的,每个部分都可以改进太多了。" 然后他给出了那个帆船vs训练流水线的对比。"实际上相当难beat today's best sailboat designs。但当我看LLM训练流水线,那是两年半的best effort、last minute desperate effort,每个部分都有太多成长空间。"
八、给创业者和个人的可执行建议
押注指数曲线:6个月后的模型能做什么
Matt说回到Sholto之前提到的——Cursor的成功,Windsurf的押注——然后说"这是2025年创业世界的关键课程之一:押注模型在6个月后能做什么。"
"完全对。押注指数。" Sholto说,很多编码初创公司现在在问自己的是:他们现在能用能够独立追求目标substantially更长时间的模型做什么?"之前你必须每30秒监督模型,随着时间推移,在接下来几个月,你可能会在一个情况里,你只需要每10分钟、20分钟监督模型。" 这是个相当dramatic的变化,取决于任务复杂度。
他们有几个例子,博客文章里提到的,让它构建看起来大致像chat app的东西——像Slack或Teams。"模型就工作了30小时,就在电脑上spin了30小时,出来一个真正好的working Slack-like的app。" 这nowhere near built into任何现有产品。也许Cognition是,Cognition总是押注更长运行、更独立的代理,也许这是真正为他们hit PMF的时刻。
准备杠杆化的世界:从2x到管理24/7团队
Sholto给出的最可执行的建议是:"持续为一个你作为个人拥有更多杠杆的世界做计划。" 现在他可以用两个编码代理做之前两倍的工作。如果编码代理按他说的方式进展,"在一两年内,你将能够管理一个基本上24/7为你工作的团队。"
"所以我们应该预期在接下来几年,在数字领域个人会获得dramatically更多杠杆。" 然后通过机器人技术扩展到物理世界。他认为许多incredibly重要的问题将变得tractable——我们的世界在很多方面都极其不完美。人们仍然生活在dramatic贫困中,健康和医疗没有解决,住房完全没有解决。"世界在很多不同方面可以好一百万倍。"
他希望的是,人们拿最初模型给我们在数字世界的杠杆,然后希望模型通过机器人给我们在物理世界的杠杆,去dramatically改善它。
机器人学即将突破:Moravec(莫拉维克)悖论是假的
Matt问:机器人学正在发生吗?一方面这是关键主题之一,但另一方面,人们似乎仍在挣扎让手正确移动,物理似乎是限制因素。
Sholto回应说有个Moravec悖论——我们觉得简单的事(操控物体,比如理发)对AI难,我们觉得难的事(数学推理,比如奥数题)对AI简单。"我实际上认为Moravec悖论有点假,我认为这主要是数据可得性和RL信号等的问题。"
他举了机器人运动(locomotion)的例子。"看看Unitree机器人的视频,现在和两年前的差异是疯狂的。这些东西难以置信地敏捷。" 有个视频是有人踢翻一个,它做了个黑客帝国式的翻身起来动作,很疯狂。这是因为运动是一个真正简单的RL信号,现在用基本的RL,运动基本上有点解决了。
操控更难一点,但有几个东西让Sholto认为机器人学会奏效。首先,今年他从机器人实验室看到的进展难以置信。 真的,它们已经到了能做相当有趣的基本物理任务的点。
其次是大的生成器-验证器差距的存在。让改进模型困难的一件事是,我们不断需要找到能在我们想改进它们的事情上beat模型的人。但在机器人学中,我们在做真正聪明的通用模型,所以你实际上可以让这些作为老师或判断机器人是否做对的judges。如果我说"把红色方块堆在蓝色方块上",我们可以问语言模型它是否恰当地堆了方块?如果是,给奖励,如果不是,不给。"所以你可以用生成器-验证器差距给模型反馈。"
最后,长期以来人们认为在机器人学中必须解决长期连贯性和规划。那也是语言模型让变容易的东西——它们可以把事情分解成多个步骤。所以所有机器人实验室真的专注于制造great motor policies,它们在取得难以置信的进展。"这主要只是一个数据和反馈循环问题。"
最核心的三个洞察(QA形式)
Q1:为什么说"AI到达瓶颈"是个误判?
A:因为三个被忽视的事实支撑着持续的指数增长。第一,计算超级周期才刚开始——ChatGPT后的投资潮现在才转化为算力供应,因为芯片制造有漫长的前置时间。即使你去年想要更多芯片也不可能,因为TSMC产能早就订满了。第二,训练流水线仍然"用胶带粘在一起",只有两年半的最佳实践积累,每个环节都有巨大优化空间。Sholto把它和经过几个世纪打磨的帆船设计做对比,现在的AI训练流水线充满了最后一分钟的紧急修复和权宜之计。第三,任何可测量的指标都在快速进步——从SWEBench一年内20%跳到78%,到时间范围每6个月翻倍。"人们每个月都说到了瓶颈,但过去三年回头看,进展是惊人的。" 如果真的遇到瓶颈,应该是某个投入大量努力的领域一年都不动,但现实是每创建一个新基准,它就快速被攻克。
Q2:从7小时到30小时自主编码,核心突破是什么?
A:不只是"运行更久",而是三个质的飞跃。首先是记忆系统的引入——模型学会创建markdown待办清单,记录任务、勾选完成项、持续检查,形成自我验证循环。就像人类不可能一口气写完一个Slack应用,需要列清单逐个攻克,模型现在也学会了这种工作方式。其次是自我纠正能力的涌现——一年前人们担心模型会偏离轨道无法纠正,现在它们在自我纠正方面异常出色,能发现自己做错了然后改正。第三是品味和全局上下文的平衡——核心挑战不是"会不会编程",而是在局部修改时不丢失对整体架构的理解,不走捷径,写出易于后续修改和多人协作的代码。Sholto用特斯拉自动驾驶类比:现在需要干预的时刻,通常是品味判断问题,而不是原始编程能力问题。这些突破让模型能独立工作30小时造出一个真正可用的类Slack应用,而不只是演示。
Q3:2-3年内达到AGI的预测,靠谱程度有多高?
A:这是基于可观测趋势的外推,不是科幻。Sholto定义AGI为"大多数计算机任务上比大多数人强",因为那是世界的关键转折点——知识劳动可以被算法解决,一切都会改变。支撑这个判断有三层论据。第一,在能设置明确反馈的领域(竞赛数学、编程),模型已经达到最佳人类水平,证明没有智力天花板——它们能做真正困难的推理,只要有正确的反馈循环。第二,即使"只是"和人类一样好,也可以并行1000个实例或100倍速运行,本质上已经远超人类——一旦你有了和最好人类一样好的东西,运行规模就是巨大优势。第三,虽然模型需要"几千辈子"经验才能学会人类几个例子就会的东西,但它可以在模拟中或1000家公司同时生活那几千辈子,样本效率不是瓶颈。关键证据是:投入到哪个方向,哪个方向就快速进步,没有某些基本问题卡住不动的情况。Sholto他有个朋友已经在管理9个Claude Code代理了(他自己只能管2个),这个杠杆在迅速增加,而这只是开始。
好文章,需要你的鼓励
Anthropic发布了面向成本敏感用户的Claude Haiku 4.5大语言模型,定价为每百万输入令牌1美元,输出令牌5美元,比旗舰版Sonnet 4.5便宜三倍。该模型采用混合推理架构,可根据需求调整计算资源,支持多模态输入最多20万令牌。在八项基准测试中,性能仅比Sonnet 4.5低不到10%,但在编程和数学任务上超越了前代Sonnet 4。模型响应速度比Sonnet 4快两倍以上,适用于客服聊天机器人等低延迟应用场景。
中科院微电子研究所团队揭示深度学习中感知优化与质量评估存在意外不对称现象。研究发现评估性能优秀的模型在训练指导中效果有限,对抗性训练具主导作用,传统卷积网络在某些场景仍具优势。这项发现颠覆了"评估性能等同于优化能力"的传统认知,为AI图像处理技术改进提供新方向。
英国初创公司Nscale将为微软建设四个AI数据中心,总计部署约20万个GPU,合同价值高达240亿美元。首个数据中心将于明年在葡萄牙开建,配备1.26万个GPU。德州数据中心规模最大,将部署10.4万个GPU,容量从240兆瓦扩展至1.2吉瓦。所有设施将采用英伟达最新Blackwell Ultra显卡。
香港科技大学研究团队开发了MOSS-ChatV视频AI系统,通过创新的"过程推理奖励"机制解决了现有视频AI推理过程不一致的问题。该系统不仅能准确预测视频中的未来事件,还能提供清晰的推理解释。研究构建了MOSS-Video数据集,采用动态时间规整算法训练模型,在多个视频理解任务上取得显著性能提升,为视频AI的可解释性发展开辟了新方向。