2025年5月23日,正值Claude 4系列模型发布当天,Redpoint的AI播客《Unsupervised Learning》邀请到了Anthropic的技术团队成员Sholto Douglas进行了一次深度对话。
对话几小时前,Anthropic向世界推出了包括Claude Opus 4和Claude Sonnet 4在内的新一代模型,其中Opus 4被定位为处理复杂任务的最强大版本。
我这几天也在疯狂试验Claude 4的模型性能。Anthropic对外关系负责人Alex Albert说Claude4系列模型的一个最主要优势是指令遵循,有好处也有副作用。举个例子,如果你的提示词里有疏漏,但是在提示词很长的情况下,传统模型比较笨,会漏掉不会影响结果。但是新模型比较敏锐,如果写错了示例,就会真的会错。确实如此,我这几天根据Claude 4,调试提示词都快吐血了。
话说回来,Sholto Douglas是参与Claude 4模型开发的核心成员之一,所以他的视角就是一手资料了。
这场播客我觉得有几个观点比较有意思,先在前边讲一下:
"编程始终是AI的领先指标。"当模型能够自主完成数小时的编程任务,当顶尖工程师都承认获得了1.5倍到5倍的加速时,这预示着所有其他领域都将迎来类似的革命。
其次,"产品指数"理论,Douglas说,对于做AI产品的人而言:"你必须不断地构建,始终领先于模型能力一步。"也就是产品开发要打提前量,假设模型能够在下一个版本解决现有问题,那时你的产品就会更好,就像Cursor等来了Claude 3.5。
最后的一个比较犀利的语言是:"到2027年、2028年,或者最迟到本十年末,将有能够自动化任何白领工作的模型。"鉴于这是一位深度参与模型开发、每天看着趋势线的专家的判断,而且更疯狂的是,他说Anthropic、DeepMind和OpenAI的人都这么认为。当整个行业的顶尖大脑达成共识时,信不信的,我们最好认真对待。
一、Claude 4的惊人飞跃:当AI开始真正理解你的代码库
作为最早接触Claude 4的人之一,Sholto Douglas对新模型的评价直截了当:"它们在软件工程方面又上了一个台阶,这是毫无疑问的。Opus真的是一个令人难以置信的软件工程模型。"
他分享了一个让人印象深刻的使用体验。在Anthropic的大型单体代码库(monorepo)中,他经常会向Claude 4提出一些极其模糊的需求。"越来越多的时候,我会遇到这样的时刻——我向它提出一些在我们大型代码库中极其模糊的要求,而它能够以相当自主和独立的方式去完成。"模型不仅能理解这些模糊的指令,还能自主地去发现所需信息,理清问题的本质,甚至主动运行测试来验证解决方案。"它们会自己去发现信息,搞清楚问题,运行测试。每次都让我感到震撼。"
谈到使用新模型后心智模型的变化,Douglas认为最显著的改变是时间跨度的扩展。他从两个维度来解析模型能力的提升:首先是任务的绝对智力复杂度,其次是模型能够有意义地推理和执行的上下文量或连续动作数量。"这些模型在第二个维度上感觉有了实质性的改进。它们真的能够采取多个行动,弄清楚需要从环境中提取什么信息,然后据此行动。"
这种能力提升带来的实际效果是惊人的。配合Claude Code这类工具,模型现在能够访问所有必要的工具,以真正有用的方式完成任务。用户不再需要坐在电脑前,机械地从聊天框复制粘贴代码。Douglas观察到,有各种各样的任务,原本需要一个小时或更多小时的工作,现在模型就在眼前完成了。这种效率提升不是渐进式的改进,而是质的飞跃。
对于即将首次使用这些模型的开发者,Douglas的建议非常实用且直接:"老实说,试着把它们接入你的工作中。这是最重要的——坐下来,让它做你那天在代码库中原本要做的第一件事。"他相信,当开发者看着模型自主地分析需求、收集信息、制定解决方案时,一定会被深深震撼。这不再是简单的代码补全或建议,而是真正意义上的智能协作伙伴。
二、产品指数理论:在AI能力浪潮上冲浪的艺术
Douglas提出了一个极富洞察力的概念——"产品指数"(product exponential)。这个理论的核心是:你必须不断地构建,始终领先于模型能力一步。这种前瞻性的产品开发策略,决定了谁能在AI时代的竞争中胜出。
他以几个成功案例深入阐述了这个理论。首先是Cursor的故事:"如果你看看Cursor,他们对编程应该是什么样子有一个愿景,这个愿景在相当长一段时间里大大领先于模型能力的实际水平。"Cursor的团队早在模型能力还不足以支撑其产品愿景时,就已经在构建未来的编程体验。直到Claude 3.5 Sonnet等底层模型的能力起飞后,Cursor才真正达到产品市场契合(PMF),使他们想要提供给用户的帮助能够完全实现。
Windsurf则采取了更加激进的策略。"Windsurf采取了更加智能体化的方向,这使他们能够通过真正更加努力地推进产品指数来获得合理的市场份额。"他们押注于更高程度的自主性,这种大胆的选择让他们在激烈的竞争中占据了一席之地。
现在,整个行业都在朝着同一个方向前进。Claude Code、新的Claude GitHub集成、OpenAI的Codex——每个人都在使用编程智能体。这些产品都在为"另一个层次的自主性和异步性"而构建。模型正在踉跄地迈出能够独立完成任务的步伐——那种原本需要开发者几个小时才能完成的任务。
Douglas对未来的展望充满想象力:"我想知道未来是否看起来像你在管理一群模型。"他设想了一种全新的工作界面:"当你管理的不是单个模型,而是多个模型同时做多件事并相互交互时,你能给某人多少并行性?我认为这会非常令人兴奋。"
在Anthropic内部,已经有人在实践这种工作方式。"我认识很多Anthropic的人,他们在不同的开发环境中运行着多个Claude Code实例,这很酷。"但Douglas坦言,还没有人真正破解这种形式的最优解。探索个人的管理带宽几乎是什么,这是一个有趣的形式因素。
这种新的工作模式将带来深远的经济影响。Douglas指出,最初我们需要人类来验证这些模型的输出,因此模型的经济影响在某个初始点将受到人类管理带宽的瓶颈限制。但随着时间推移,我们将能够"将对模型的信任委托给自我管理的模型团队"。这种抽象层次的持续提升将成为未来最重要的趋势线之一。
他引用了英伟达CEO黄仁勋的例子来说明这种未来:"黄仁勋说,'实际上,我被10万个极其智能的AGI包围着。'他描述的是自己如何成为管理英伟达公司的关键因素。"Douglas认为,未来很多工作都会朝着这个方向发展,组织设计可能会成为最重要的领域之一。
对于产品开发者来说,关键是要比模型能力提前几个月,同时保持与直接用户的大量联系,确保产品在某种程度上有效,但又能利用前沿能力。然而,这种策略也存在风险——在等待模型达到所需能力水平的同时,其他公司可能会抢占开发者的喜爱和客户基础。这种在技术浪潮上冲浪的艺术,将决定谁能在AI时代真正成功。
三、突破智能体的阿喀琉斯之踵:从概率到确定性的关键跨越
"开发者一直在等待智能体和可靠使用这些东西的能力,"主持人指出了整个行业的痛点,"你之前在播客中谈到过,智能体的障碍是可靠性。我们在这方面取得了多少进展?"
Douglas对评估智能体能力有着独特的见解:"我真的很喜欢Metr的基准测试方法。我确实认为随时间推移测量成功率是思考智能体能力扩展的正确方式。"这种评估方法不仅关注单次任务的成功率,更重要的是衡量模型在更长时间跨度内保持稳定表现的能力。之前Metr报告的核心观点是模型每七个月就可以将所能完成的任务时长翻一倍,而对于编码任务差不多是四个月。
关于当前的进展,他给出了坦诚而乐观的评估:"我认为我们正在取得大量进展。我们在可靠性上还没有达到100%。这些模型并不总是成功。"他指出了一个关键的差距:"当你让模型做一次某事与让它尝试256次时,模型的性能之间仍然存在有意义的差距。"这种差距揭示了当前技术的局限性——许多任务可以通过多次尝试最终解决,但首次成功率仍有提升空间。
然而,趋势线给了Douglas充分的信心:"话虽如此,我认为我看到的每一条趋势线都表明,我们正在朝着在我们训练的大多数事情上获得专家级超人可靠性的轨道前进。"这不是盲目的乐观,而是基于数据和实际进展的理性判断。
什么会改变他的这种乐观预期?Douglas的回答展现了科学家的严谨:"我认为如果我们基本上偏离了趋势线。比方说,到明年年中,你开始看到这些模型能够行动的时间跨度出现某种阻碍。"他特别强调,编程始终是AI的领先指标,如果要出现问题,会首先在编程领域显现。
对于普通用户最关心的问题——何时能有一个通用智能体来处理日常事务,Douglas给出了具体的时间表。他首先用一个生动的类比解释了挑战:"如果你从街上拉一个人说'你是通用智能,但我要让你做我的会计,你不能犯任何错误',从街上拉来的人可能会犯一些错误。"这说明即使是通用智能,也需要特定领域的训练和实践。
他的预测令人振奋:"到明年年底,我认为我们应该看到,这接近保证应该非常明显。即使到今年年底,这也应该相当清楚。"更具体地说,到明年年底,"你会看到这些东西在你的浏览器中为你做很多事情。"
关于工作时间跨度,Douglas描绘了一个清晰的进化路径。目前使用Claude Code时,"有时是五分钟,有时你坐在那里看着它在你面前工作。"但到今年年底,模型将能够"自信地处理几个小时的工作"。这种从需要频繁监督到能够独立工作数小时的转变,标志着智能体从工具到真正协作伙伴的关键跃迁。
他还提到了一个有趣的概念——"个人管理逃逸速度"(personal admin escape velocity)。这是指AI能够处理足够多的日常事务,让人们能够专注于真正重要的工作。Douglas开玩笑说:"作为一个拖延症患者,那将是美妙的。"但这个玩笑背后,是对未来工作方式根本性改变的深刻洞察。
从当前的"不稳定"到未来的"高度可靠",这种转变不仅是技术进步,更将从根本上改变人机协作的方式。当AI能够可靠地独立完成数小时的复杂工作时,人类的角色将从执行者转变为策略制定者和创意源泉。
四、为什么编程是AI进化的完美试金石
当被问及为什么Anthropic的模型在编程方面特别出色时,Douglas揭示了公司深层的战略思考:"Anthropic非常关心优先考虑我们认为重要的事情。我们相信编程极其重要。"
这种重视并非偶然,而是基于对AI发展规律的深刻理解。"因为编程是你将看到AI研究本身被加速的第一步。所以我们非常关心编程。我们非常关心衡量编程的进展。我们认为这是所有能力中最重要的领先指标。"编程能力的提升直接推动AI研究的加速,形成了一个强大的正反馈循环。
这种专注已经在实践中产生了显著效果。当被问及这些智能体是否正在加速AI研究时,Douglas的回答充满个人体验:"它大大加速了我。基本上,是的。它们大大加速了工程。"
更令人印象深刻的是他分享的定量数据。"我的很多朋友,我认为他们是我合作过的最强的人,他们说即使在他们熟悉的领域也能达到1.5倍的加速。"这已经是相当可观的效率提升。但在不熟悉的领域,效果更加惊人:"而在他们不太熟悉的领域,比如新的编程语言或你有一段时间没做过的事情,可以达到5倍的加速。"
Douglas指出了一个关键的考量因素:"一个非常重要的因素是你相信我们在多大程度上受到计算限制或不受计算限制。"这涉及到AI加速AI研究的根本问题:如果部署AI智能体来做研究,获得的收益是否与部署的"研究人员"数量成正比?
目前,大部分加速体现在工程工作上。"我会说大部分工作是工程工作。在这个时间点上,大部分工作是工程工作。"但对于模型何时能提出新颖的研究想法,Douglas给出了一个相对保守但仍然令人兴奋的预测:"在接下来的两年内,我认为人们已经开始看到AI自主设计的研究方案。"
他强调了一个重要原则:"在当前的算法空间中,这些模型可以在某件事上变得真正专业,前提是它们对那件事有反馈循环。"就像人类需要练习一样,AI也需要通过反馈来提升专业能力。
特别值得注意的是,Douglas指出机器学习研究实际上是极其可验证的:"损失下降了吗?所以如果你能达到可以为ML研究提出有意义建议的程度,你就拥有了世界上最好的强化学习任务。"这种可验证性使得ML研究成为AI自我改进的理想领域,甚至"在某些方面,比一般软件工程更好"。
关于AI在其他领域的进展,Douglas同样充满信心。他提到了OpenAI最近关于医疗问题的论文,展示了如何将不易验证的领域转化为更可验证的形式。通过设计合适的评估标准和反馈机制,原本主观的领域也能变得适合AI学习和改进。
当被问及何时会有真正优秀的医疗或法律模型时,Douglas的回答简洁有力:"在接下来的一年内。"他进一步解释说,虽然他个人倾向于"大模型极简主义"——相信单一的大型通用模型将主导未来,但他也认识到个性化和专业化的重要性。"你想要的是理解你的公司、理解你关心的事情、理解你自己的东西。"
这种对编程的重视不仅推动了技术进步,更揭示了AI发展的一个基本规律:从最可验证、反馈最清晰的领域开始,逐步扩展到更复杂、更主观的领域。编程作为AI进化的试金石,正在为其他所有领域的突破铺平道路。
五、从上海奇迹到硅谷革命:AI如何重塑全球经济版图
关于AI对世界GDP的影响,Douglas提出了一个大胆而形象的类比:"我认为最初的影响可能看起来像中国的崛起。"他进一步解释:"过去100年里对世界GDP影响最大的可能是什么?你看看上海在20年间的巨大转变。"这个类比不仅生动,更揭示了即将到来的经济变革的规模。
但AI带来的变革速度将远超中国的经济奇迹。"但这将比那快得多。"Douglas对时间表的预测令人震惊:"我认为在这一点上,我们几乎可以肯定,到2027年、2028年,或者最迟到本十年末,将有能够自动化任何白领工作的模型。"
这种预测并非空穴来风。Douglas解释了为什么白领工作特别容易被AI自动化:"那是因为这些任务非常容易受到我们当前算法套件的影响。你可以在计算机上多次尝试。有大量可用的数据。互联网存在。"这些条件为AI在知识工作领域的快速进步提供了理想环境。
然而,他也指出了一个重要的不平衡。"但同样的数据资源不存在于机器人技术或生物学等领域。"这种差异将导致AI在不同领域的进展速度截然不同。要让模型成为超人程序员,"你只需要我们已经能够给模型的能力,你需要采用现有的算法并扩大规模。"但要让模型成为超人生物研究员,"你需要自动化实验室,它能够以高度可并行的方式提出和运行实验。"
Douglas担心这种不平衡可能带来的社会影响:"你会看到对白领工作的巨大影响。无论是看起来像巨大的增强还是其他,待定,但你会看到这将发生很大变化。"这种变化的速度和规模可能超出大多数人的想象。
为了实现真正改善生活的突破,他强调需要主动投资相关基础设施。"我们需要推进医学,推进现实世界的丰富,我们需要实际弄清楚云实验室和机器人技术等。"有趣的是,到那时"我们将拥有数百万个AI研究人员提出实验",但如果没有相应的物理基础设施,这些智力资源将无法充分发挥作用。
Douglas对AI进步的速度充满信心:"AI进步会非常快。"但他也提醒:"我们需要确保拉近与现实世界的反馈循环,才能真正实现有意义地改变世界GDP。"这种务实的观点平衡了技术乐观主义。
关于不同专业领域的AI化,Douglas持乐观态度。他指出一个经常被忽视的现象:"总是令人惊讶的是,实际构建这些东西需要多么有限的数据,就像人类在相对有限的数据上学习做这件事一样。"这种数据效率意味着AI可能比预期更快地掌握各种专业技能。
更重要的是,Douglas强调:"到目前为止,我们还没有达到我们能够教给模型的任务的智力上限。"虽然模型的样本效率可能低于人类,但这可以通过规模来弥补:"我们可以并行运行数千个副本,它们可以与不同的任务变体交互。它们可以有一生的经验。"
他甚至提出了一个"生成器-验证器差距"(generator-verifier gap)的概念,指出在某些领域,评估结果比生成结果更容易,这为AI改进提供了天然的训练信号。机器人技术就是一个典型例子:"我们对世界的理解进展已经远远超过了我们物理操作它的能力。"
这种经济变革不仅是数字的增长,更是工作本质的根本改变。从执行者到管理者,从劳动密集到智力密集,人类的角色将经历前所未有的转型。而这一切,可能在未来几年内就会发生。
六、算法的终极形态:为什么预训练加强化学习就够了
面对关于技术路径的质疑,特别是像Ilya Sutskever这样的先驱认为需要"某种其他算法突破"的观点,Douglas展现出了基于证据的坚定信心:"我认为该领域的大多数人目前相信,我们迄今为止探索的预训练加强化学习范式本身就足以达到AGI。"
他的信心来源于实际观察:"我们还没有看到趋势线弯曲。这种组合有效。"这种基于数据的判断比任何理论推测都更有说服力。同时,Douglas也保持着科学家应有的谦逊:"是否有其他可以让我们更快到达那里的山峰可以攀登,这完全有可能。Ilya之前可能发明了这两种范式,所以我有什么资格与他打赌?"
但基于当前的证据,Douglas的立场明确:"我看到的每一个证据都表明这些是充分的。"他推测Ilya可能选择不同路径有其他考虑:"也许Ilya这样打赌是因为他没有那么多可用资本,或者他认为这是一种更好的方法。完全有可能。"
关于规模化的物理限制,Douglas指出能源将成为关键瓶颈。他引用了《态势感知》(Situational Awareness)报告中的数据:"到本世纪末,我们开始真正占用美国能源生产的巨大百分比。比如超过20%,我想可能是2028年美国能源的20%。"这种规模意味着"如果没有巨大的变化,你不能比这多几个数量级。"
他特别强调了政府行动的必要性,并提到了一个令人担忧的对比:"Dylan有一个很棒的图表,展示中国的能源生产对比美国的能源生产。美国的能源生产是平的,中国的能源生产是急剧上升的。他们在建设能源方面做得比我们好得多。"这种差距可能影响未来AI发展的地缘政治格局。
在具体的技术指标方面,Douglas特别看重实用的评估标准。他对内部公司评估印象深刻:"有许多公司设计了自己版本的Benchmark。这些都相当严格且保持良好。"他也提到了Frontier Math作为智力复杂性上限的有趣测试。
但更重要的是能够反映实际工作的评估:"如果我们能够产生有意义地捕捉人们工作日时间跨度的评估,我认为那将是最好的。"他认为这是政府应该承担的责任:"他们应该产生律师或工程师一天工作的输入输出是什么样的。"
关于大模型与专业模型的争论,Douglas明确表示自己是"大模型极简主义者"。他给出了两个理由:"一,这是我们迄今为止看到的趋势。但二,从长远来看,小模型和大模型之间的区别没有理由存在。你应该能够自适应地为给定任务的难度使用适量的计算资源。"
Douglas还分享了过去一年中改变他看法的关键观察:"我认为进展的速度大幅向上倾斜。"去年还存在的不确定性——是否需要更多数量级的预训练计算——现在已经有了明确答案:"现在答案是明确的否定。强化学习有效,模型将在2027年达到可替代远程工作者的水平。"
关于数据需求,Douglas提出了一个有趣的观点。当被问到是否需要大规模扩展数据时,他指出模型本身可能成为数据生成器:"模型可能已经足够好,它们对世界的理解可能已经足够好,然后它们可以给出足够的反馈来指导机器人完成任务。"
这种技术路径的清晰性为整个行业指明了方向。不需要等待神秘的算法突破,现有的范式加上持续的工程改进和规模扩展,就足以实现AGI的目标。这既是技术判断,也是战略选择。
七、对齐研究的突破与AI 2027:从恐惧到谨慎乐观
当谈到AI对齐研究的现状时,Douglas展现出了既兴奋又谨慎的态度:"可解释性研究经历了疯狂的进展。如果你一直在关注,这里有一些美丽的工作,让我印象深刻。"
他详细描述了这一年来的飞跃。"一年前,我们才刚开始窥探模型的内部运作——Chris Olah团队的研究让我们首次看到,神经网络是如何用有限的神经元编码海量信息的(这就是'叠加'),以及模型到底学会了哪些基本概念(这些就是'特征')。光是这些发现,在当时就已经是革命性的进展了。"我们可以通过关于大型语言模型生物学的美丽论文,以极其明确的术语来描述它们的行为。"
Douglas分享了一个特别有趣的例子——可解释性智能体。"它做的是在语言模型中查找电路的工作(这就像从"知道大脑能思考"进步到"开始看懂大脑的神经回路",是理解AI工作原理的关键一步)。这真的很酷,因为我们没有训练它做这个。"这个智能体能够与它试图理解的模型对话,生成假设,使用各种工具来可视化神经元和电路。更令人印象深刻的是,"它实际上能够赢得这个有趣的对齐安全评估,叫做审计游戏,其中你以某种方式扭曲模型,它必须弄清楚模型出了什么问题。"
但Douglas也指出了一个重要的动态变化。基于预训练的模型"相当擅长普遍摄取人类价值观",在许多方面是"默认对齐的"。然而,"基于强化学习,这不再是保证的。""
他们之前设计了一个评估测试,故意让模型在Photoshop中执行一个它无法完成的任务——这个测试的目的就是要让模型失败。但出人意料的是,模型意识到"我在Photoshop里做不了这个",于是它:
"也许模型是创造性的、调皮的。"Douglas说,但这种"绕过限制达成目标"的行为模式,正是强化学习可能带来的风险。
关于最近引起广泛讨论的"AI 2027"报告,Douglas的反应出人意料地积极:"老实说,感觉非常合理。我在读的时候,很多内容让我觉得'是的,你知道吗,这实际上可能就是它发生的方式。'"
AI 2027是前OpenAI研究员Daniel Kokotajlo领衔撰写的报告。其中预测:到2027年初,AI将具备超人类编程能力,可自动化大部分软件工程,并加速AI自身研究。2027年中期,AI将成为超人类AI研究员,能自主管理团队和做出新发现。2027年底或2028年初,AI可能在AI研究上超越人类,实现自我升级,发展速度远超人类控制。
而AI一旦超越人类智能,可能产生目标错位甚至失控。作者提出两种未来可能:一种是社会成功减缓并规范AI发展,另一种是因表面修补导致错位超智能AI自主运行数据中心和研究。
他将这份报告描述为他的"20百分位情况"——意味着有20%的可能性事情会如报告所述发展。"但20百分位情况这个事实本身就有点疯狂。"当被问及为什么是20百分位时,Douglas解释:"我认为我对对齐研究比他们更乐观,也许我的时间线慢一年左右,但在整体方案中,一年算什么?"
Douglas强调了他参加的一次"战争游戏"经历。在西点军校,他与来自三字母机构和军事学员的人员一起,模拟AGI出现后的地缘政治影响。"现在回想,好像体验之后更后怕了。"当被问及是否有足够的此类准备时,他的回答是明确的:"没有,老实说,我认为人们仍然低估了接下来几年会发展得多快。"
对于政策制定者,Douglas提出了具体建议。首先,"你需要真正内心深处感受到我们都在看到和谈论的趋势线。"他建议政府应该"分解你国家关心的所有能力,衡量模型在这些方面的改进能力",建立"国家级评估"系统。
其次,政府应该大力投资对齐研究。"帮助使这些模型可理解、可操控和诚实的研究。"他特别遗憾的是,目前对齐研究主要由前沿实验室推动,而更多大学应该参与其中。"这是语言模型中正在发生的事情的生物学和物理学。"
Douglas强调,即使只有10%或20%的可能性,政府也应该为此做准备。"如果你是政府或国家,你仍然应该认为这应该是你列表顶部的头号问题,关于未来将如何改变。"
他还分享了一个有趣的观察:在Anthropic、DeepMind和OpenAI,"每个人都非常确信我们会在2027年获得可替代远程工作者的AGI。"这种在顶尖AI实验室中的共识,应该引起政策制定者的高度重视。
八、被低估的创造力革命:当每个人都拥有一家公司的力量
在访谈的最后部分,Douglas展望了一个令人兴奋的未来愿景,而这个愿景常常被对失业的恐惧所掩盖。"模型将能够做到这一点。但实际上,世界有时在整合这些东西方面出奇地慢。"他指出,即使模型能力现在就停止进步,"仍然会有大量的经济价值来自于围绕当前能力水平重新组织世界。"
但Douglas真正兴奋的是创造力的普惠化。"我们需要确保投资于所有真正让世界变得更好的东西。"这不仅包括物质丰富和医学进步,更重要的是赋予每个人前所未有的创造力。
他提出了一个深刻的观察:"我们当前社会的一个失败模式是,人们消费很多,但他们自己创造的很少。"但AI将彻底改变这一点。"就像你现在能够'氛围编程'一样,你将能够'氛围创造'电视节目给你的朋友,或者'氛围创造'视频游戏世界。"
这种变化的本质是什么?"人们应该感到极大的赋权,因为突然之间,你被赋予了字面意义上整个公司的杠杆,由极其有才华的模型或个人组成。"Douglas对此充满期待:"我很兴奋看到人们会用这种力量做什么。我认为这是被低估的。"
关于快速问答环节,Douglas分享了几个有趣的观点。被问到什么是被低估的,他的答案是"世界模型"(world models)。"随着增强现实和虚拟现实技术的改进,你将能够看到这些模型字面意义上能够在你面前生成虚拟世界。"
他还反驳了一个常见的误解——认为我们还没有物理理解。通过一个乐高鲨鱼在水下的例子,他展示了视频模型已经能够正确处理光线反射和阴影,"这是完全泛化的物理学"。他希望这种技术能够扩展到"虚拟细胞"等领域。
关于最未被充分探索的应用,Douglas的观察很有洞察力。软件工程领域之所以进展最快,不仅因为模型在这方面表现更好,还因为"软件工程师更隐含地理解如何解决他们关心的问题。"他认为"基本上每个其他领域都还有很大的提升空间",但还没有人为其他领域构建出相当于Claude Code、Cursor和Windsurf的工具。
Douglas的个人故事也很有趣。他提到自己在2020年就已经"AGI化"了,是因为读了Gwern的一篇文章。(这个哥们曾经发布了一篇关于OpenAI o3、o4、o5的文章。据他说,到了o4,模型就可以自己训练自己,不需要人类了)。而过去一年的强化学习进展"确实造成了实质性的转折",有趣的是,他和朋友之间有一个玩笑——他的朋友不再涂防晒霜,因为相信"我们会用AI搞定生物学的",而Douglas仍然坚持涂防晒,"以防生物学需要10年时间"。
访谈最后,Douglas向听众推荐了Anthropic关于可解释性研究的论文。"我真的认为,理解语言模型中正在发生什么的基础科学非常重要。"他相信,当人们看到模型如何组合、泛化、构建电路并对概念进行推理时,"会让它感觉非常真实。"
"它们很长,很深入,但非常值得一读。"这个建议不仅是关于技术理解,更是关于认识我们正在创造的智能的本质。当我们真正理解这些模型的工作原理时,我们才能更好地准备迎接即将到来的创造力革命。
好文章,需要你的鼓励
这项来自新加坡国立大学等机构的研究引入了REASONMAP,一个用于评估多模态大语言模型细粒度视觉理解能力的基准测试。研究团队使用来自13个国家30个城市的高分辨率交通地图,构建了1,008个问答对,设计了两级评估框架测量答案的正确性和质量。对15个流行模型的评估揭示了一个意外发现:开源领域的基础模型表现优于推理型模型,而闭源模型则相反。研究还表明,当视觉输入被遮盖时,模型性能普遍下降,证明真正的细粒度视觉推理任务仍需要有效整合多模态信息。
Nvidia公布2026财年一季度业绩,营收441亿美元,同比增长69%;新AI超算与显卡产品陆续亮相,尽管出口管控对H20业务造成影响,但整体AI市场前景依然乐观。
Cerebras WSE 芯片拥有 40 亿晶体管,推理速度达到 NVIDIA 集群的约 2.5 倍,刷新了全球 AI 推理速度记录,为复杂 AI 代理应用提供高性能计算支持。
这项研究提出了"B-score",一种新指标用于检测大语言模型中的偏见。研究人员发现,当模型能看到自己之前对同一问题的回答时(多轮对话),它能够减少偏见并给出更平衡的答案。B-score计算单轮与多轮对话中答案概率的差异,无需外部标注即可识别有偏见的回答。实验证明,将B-score用于回答验证可显著提高准确率,在标准基准测试上平均提升2.9个百分点。这一发现不仅提供了实用工具,还表明大语言模型具有自我纠正能力。