2025年12月18日,OpenAI CEO山姆·奥特曼(Sam Altman)做客Big Technology Podcast,与主持人Alex Kantrowitz进行了一场长达近一小时的深度对话。这是奥特曼近期最坦诚的一次公开访谈,他罕见地详细解释了OpenAI天量基础设施投资背后的财务逻辑、公司的企业市场野心,以及为什么他认为AI能力存在巨大的"过剩"。

访谈发生的时间点很微妙。就在一周前,OpenAI刚刚发布GPT-5.2。而再早两周,奥特曼向全公司发了一封内部备忘录,宣布进入"Code Red"(红色警报)紧急状态——这个词三年前被Google用来形容ChatGPT带来的威胁,如今成了OpenAI用来应对Google Gemini 3的武器。角色互换的戏剧性,正是这场对话的注脚。

1. Code Red:三年后攻守易位
2022年11月30日,ChatGPT上线。几天内用户破百万,Google CEO Sundar Pichai在内部拉响警报,把这场威胁定义为"Code Red"(红色警戒)。三年过去,局势翻转了。
2025年11月中旬,Google发布Gemini 3。这个模型在多个主流基准测试中超过了OpenAI的GPT-5.1,尤其是在推理能力测试中表现亮眼。更让OpenAI紧张的是,Gemini 3被立刻部署到Google的整个产品生态——搜索、YouTube、Gmail、Android,触达数十亿用户。Salesforce CEO Marc Benioff公开宣布从ChatGPT切换到Gemini,称"两小时就做出了决定"。
12月1日,奥特曼向OpenAI全体员工发出内部备忘录:"我们正处于ChatGPT的关键时刻。"公司暂停了广告计划、购物和医疗AI助手等项目,集中资源改进核心产品。这就是OpenAI版本的Code Red。
但在这次访谈中,奥特曼试图给这件事降温。
"我们把Code Red看作相对低风险、相当频繁的事情,"他说,"通常持续六到八周就结束。每年可能发生一到两次。"
他用COVID防控来类比这套机制的底层逻辑:COVID初期的每一分行动都比后期行动价值高得多,大多数人早期行动不足、后来恐慌。COVID就是典型例子。他把这种哲学应用到竞争响应上:一旦潜在威胁出现,立刻调动资源评估和应对,宁可过度反应也不要反应不足。
今年触发Code Red的有两次:年初的DeepSeek——用极低成本训练出性能优异的开源模型,震惊硅谷——以及最近的Gemini 3。
"Gemini 3至少到目前为止没有产生我们担心的影响,"奥特曼说,"但它确实像DeepSeek一样,暴露了我们产品策略上的一些弱点,我们正在快速解决。"
就在访谈当天,OpenAI发布了新的图像生成模型。上周发布的GPT-5.2增长势头很好。接下来还会有几个新产品发布,以及服务速度等持续改进。"我估计我们不会在Code Red状态下待太久了。"
2. 为什么Google没能碾压OpenAI
对话进行到竞争话题时,奥特曼说出了一句让人意外的话。
"如果Google在2023年就真的决定认真对待我们,我们会陷入非常糟糕的境地。我认为他们当时完全有能力碾压我们。"
但Google当时的AI产品方向不太对。他们的首个Gemini模型在2023年底发布后遭遇舆论风暴——AI生成的图像被批评"过于政治正确",AI搜索给出的答案包括"吃胶水"和"吃石头"这样的荒谬建议。更重要的是,Google拥有"可能是整个科技行业最好的商业模式",奥特曼认为他们会很慢才愿意放弃这个模式。
"把AI嵌入网页搜索,我可能错了,可能是在喝自己的Kool-Aid(自我催眠),但我不认为这会像从头重新想象整个体验那样有效。"
这是奥特曼对Google战略的核心批评:bolt-on(嵌入式)不如从头设计。
他用消息应用举例。把AI嵌入消息应用,让它帮你总结消息、起草回复,确实比没有AI好一点。但这不是终局。真正的终局是什么?
"你有一个非常聪明的AI作为你的代理,和其他所有人的代理对话,决定什么时候打扰你、什么时候不打扰,什么决策它自己处理、什么时候需要问你。我不想花一整天发消息。我不想让你帮我总结。我不想让你给我看一堆草稿。处理掉你能处理的一切。你了解我,你了解这些人,你知道我想完成什么。然后每隔几小时,如果需要什么,批量更新给我。"
这种工作流和现在的应用设计完全不同。搜索如此,生产力套件也是如此。奥特曼承认变化可能比预期慢,但他预计在主要品类中会出现全新的、完全围绕AI构建的产品,而不是把AI嵌入现有产品。这是Google的结构性弱点,即使他们有巨大的分发优势。
3. 牙膏效应:为什么用户不会轻易切换
主持人问:如果模型变得差不多好,Google凭借分发优势岂不是很容易胜出?
奥特曼的回应从一个意想不到的角度切入。
"有人告诉我,人们一辈子基本只选一次牙膏,然后就一直买同一种。"
他认为AI产品也有类似的粘性。人们和ChatGPT有了一次"魔法时刻"——比如把血检结果放进去,发现了医生没查出的问题,去看医生后真的治好了。这种用户会非常忠诚。
但更重要的是个性化。"在ChatGPT里,个性化极度有粘性。人们喜欢模型随时间了解他们,你会看到我们在这方面大力推进。"
奥特曼坦言,目前的记忆功能还很粗糙,"我们还在记忆功能的GPT-2时代"——也就是说,还处于非常早期的阶段,远没有发挥出潜力。但想象一下未来的场景:AI不只记住事实,还记住你的小偏好,那些你自己可能都没意识到但AI能察觉的细节。这种程度的个性化,即使是世界上最好的人类助理也做不到——他们不可能记住你说过的每一句话、读过的每一封邮件、写过的每一份文档,每天观察你的所有工作并记住每个细节。
"我觉得这是我最期待的功能之一,可能不是2026年的事,但方向确定。"
4. 企业市场:2026年的头号优先级
访谈进行到三分之一时,奥特曼透露了一个重要战略信号。
"这一年我们的企业增长超过了消费者增长。"
这句话值得反复品味。OpenAI一直被认为是消费者公司,但API业务(供开发者调用AI能力的接口服务)的增长竟然比ChatGPT本身还快。他们已经有超过100万企业用户。
奥特曼解释了为什么现在是时候大举进军企业市场。首先,模型终于足够稳健和有技能了,早几年企业用例根本跑不起来。其次,先赢消费者市场是有意为之的战略——消费者市场的机会窗口难得,而且赢了消费者会让企业市场容易很多。
"人们想用同一个AI平台处理个人和工作事务,就像他们个人生活用的手机,工作时也想用同一种。ChatGPT消费者端的强势正在帮我们赢得企业市场。"
企业想要的是什么?奥特曼的描述很具体:公司想要"公司名+AI"。他们需要为公司定制的API、为公司定制的ChatGPT Enterprise、可以信任数据的AI助手平台、能往产品里灌几万亿token的能力、让内部流程更高效的工具。
"公司开始说,我真的只想要一个AI平台。"
OpenAI目前没有很好的一体化方案,但正在构建。奥特曼明确说这和AWS、Azure是"不同类型的东西",他不打算去提供托管网站的各种服务。他预想的是:公司继续用现有的云服务处理传统IT需求,但会有一个新的层面,专门处理所有AI相关的事务——这是一个全新的市场。
5. 万亿美元投资:Stargate和计算经济学
2025年1月,特朗普就职典礼次日,一个名为"Stargate"(星门)的项目在白宫宣布。这是一个由OpenAI、软银、Oracle联合发起的AI基础设施计划,承诺在四年内投资5000亿美元,在美国各地建设大型数据中心。第一批设施已在德克萨斯州阿比林动工,后续项目扩展到俄亥俄、新墨西哥、密歇根等州。
但5000亿只是开始。加上OpenAI与微软、亚马逊AWS、Oracle等云服务商的长期合同,承诺总额达到约1.4万亿美元。这个数字已经超过了很多国家的年度GDP。
奥特曼承认这个数字很难让人形成直观理解。
"指数增长对人来说通常很难直观理解。"他说这是他试图解释这笔投资逻辑时首先要克服的障碍。
核心逻辑是什么?
"我们一直处于计算赤字状态。如果我们有双倍计算,就会有双倍收入。"
这是他反复强调的核心论点。从去年到现在,OpenAI的计算规模大约翻了三倍。明年再翻三倍,后年希望还能再翻。收入增长和计算规模增长几乎同步。奥特曼说他们从来没有遇到过"有计算卖不掉"的情况。
"这1.4万亿会花很长时间。我希望我们能花得更快,我觉得如果能更快会有需求。但建这些项目需要极长的时间——数据中心、运行数据中心的能源、芯片、系统、网络,所有东西。"
那么财务模型怎么跑通?
这里需要理解AI行业的两种主要成本:训练(training)是让模型变聪明的过程,需要巨量计算,但只需要做一次;推理(inference)是模型回答用户问题的过程,是持续产生的日常运营成本,也是收入的直接来源。
奥特曼解释说,随着用户增长,推理收入会越来越大,最终超过训练支出。如果OpenAI不继续大幅增加训练投入,早就能盈利了。但他们选择激进投资训练——因为更强的模型意味着更大的市场。
按目前预测,OpenAI计划在2029年左右实现盈利,到那之前可能累计亏损约1200亿美元。
6. 债务融资的争议
主持人提出了一个市场普遍担忧的问题。
要理解这个担忧,需要了解一点背景。传统上,科技公司用自己赚的钱或股权融资来扩张。但AI基础设施太贵了——高盛估计,到2028年,科技巨头在AI基础设施上的投入将达3万亿美元,仅靠自有资金根本不够。于是科技公司开始大量借债。据高盛分析,过去一年科技巨头的债务增加了1210亿美元,是正常水平的三倍多。
这让一些分析师想起了2000年的互联网泡沫和2008年的金融危机。当年也是大量资金涌入看起来前景无限的新领域,用各种复杂的金融工具融资,最后泡沫破裂,债务无法偿还,波及整个经济。
奥特曼的回答出人意料地乐观。
"老实说,我觉得市场更疯狂的时候是今年早些时候,我们去见某家公司,那家公司的股价第二天就涨15%或20%。那才是疯狂的。我其实很高兴现在有了一点点怀疑和理性,因为之前感觉我们完全在走向一个非常不稳定的泡沫。"
关于债务,他的核心论点是:如果建了基础设施,行业总会有人从中获得价值。这仍然是早期,但没人再质疑AI基础设施是否会创造价值,问题只是谁能拿到这个价值。
"借钱给公司建数据中心,这件事本身没什么问题。我觉得还会出现其他类型的金融工具,其中肯定有些不太合理的。但这是正常的周期。"
他承认可能会有起伏。如果模型进步意外停滞——虽然他坚信不会——那基础设施的价值可能低于预期。但基于他们对模型改进的内部可见度,他"非常有信心"模型会持续变好,愿意把公司押在这上面。
7. 能力过剩:奥特曼引入的新概念
这是访谈中最具洞察力的部分。奥特曼引入了一个他之前没公开讨论过的概念框架。
AI安全圈子多年来有一个经典的讨论框架:AGI(通用人工智能)离我们多远?是"短时间线"(可能几年内)还是"长时间线"(可能几十年)?一旦AGI出现,它的能力增长是"慢起飞"(渐进式改进)还是"快起飞"(爆发式增长)?这个2x2矩阵曾是预测AI未来的核心工具。OpenAI自己在2023年的官方博客中写道:"我们认为最安全的象限是短时间线加慢起飞。"
但奥特曼说他脑子里现在多了一个z轴:能力过剩的大小(small overhang vs. big overhang)。
什么叫能力过剩?
"我原本以为,如果模型有很大价值,世界会很快学会利用。但现实不是这样。"
GPT-5.2代表的经济价值相对于世界已经从中提取的价值,这个差距是巨大的。奥特曼做了一个大胆的断言:即使把模型冻结在5.2,不再进步,光是让更多人学会用它,还能创造巨大的价值和收入。
这和企业说AI投资没回报的说法怎么调和?奥特曼说他听到的不一样:"我们听到的企业说,如果GPT 5.2价格涨10倍我们也愿意付。"
他认为是工作流惯性的问题。人们太习惯让初级分析师做PPT了,即使知道可以用AI更多,还是按老习惯来。他坦承自己也是:"我自己的工作流也基本没变,尽管我知道可以用AI更多。"
这个发现有"一系列奇怪的后果",他们还没完全想清楚。但对基础设施投资来说,这是个好消息:即使模型不再进步,光是挖掘现有能力的价值,就能支撑巨大的需求增长。
8. ChatGPT三年了,界面为什么没怎么变?
"说实话,我以为到现在ChatGPT的样子会和发布时很不一样。"
这是奥特曼访谈中最自省的时刻之一。聊天界面本来只是研究预览,不是设计成产品的。他们知道文字界面很好——人们习惯和朋友发短信。但他原本以为,要成为一个被广泛用于真正工作的大产品,界面必须走得更远。
结果界面的通用性比他预想的强大得多。
但他仍然认为应该做更多改变。AI应该能为不同任务生成不同界面,比如讨论数字时能用不同方式展示和交互。应该更有交互性,你可以边说边看对象持续更新,有新问题、新想法、新信息进来时实时反映。应该更主动,理解你今天想完成什么,在后台持续工作,有更新时推送给你。
"Codex是今年最令人兴奋的事情之一。"
Codex是OpenAI的AI编程工具,可以根据自然语言描述自动生成代码。奥特曼透露,OpenAI内部用Codex在不到一个月内构建了视频生成工具Sora的Android应用。"用了巨量token——在OpenAI工作的好处之一是Codex没有限制——但做到了本来需要更多人更长时间才能做到的事。"
人们使用Codex的方式指向了未来的产品形态:给AI一个大目标,让它自己拆解任务、写代码、调试、迭代,人只需要在关键节点做决策。
9. 科学发现:曲线已经离开x轴
"今年早些时候,我以为小发现会在2026年开始。结果2025年底就开始了。"
GPT-5.2发布五天后,Twitter上出现了一串数学家互相回复的帖子:"我以前很怀疑LLM,5.2是跨过门槛的那个。它帮我做了这个小证明,改变了我的工作流。"
奥特曼反复强调这些发现非常小,不要过度解读。但他用了一个意味深长的表达:"有"和"没有"在质上是完全不同的。GPT-3对人类知识的贡献是零。GPT-5.2开始有了微小的贡献。一旦曲线从x轴稍微抬起来,他们知道怎么让它越来越好。
他个人最期待的就是用AI和大量计算来发现新科学。"科学发现是世界变好的高阶比特。如果我们能把巨量计算投向科学问题,发现新知识——这方面的微小开端正在发生,还非常早,但根据我在这个领域的学习,一旦曲线开始动了,离开x轴一点点,我们就知道怎么让它越来越好。"
五年内会有大发现吗?奥特曼预计从现在到那时就是正常的AI进步节奏:每个季度好一点,然后突然回头看,人类借助这些模型做到了五年前绝对做不到的事。无论把这主要归功于更聪明的人类还是更聪明的模型,只要科学发现出来了,他都很高兴。
10. AI设备:与iPhone设计师的秘密合作
"从反应性的笨东西,到非常聪明的主动性东西。"
奥特曼用这句话描述计算范式的根本转变。AI应该理解你的整个生活、你的上下文、你周围发生的一切,非常了解你身边的人——无论是物理空间里的人,还是你正在用电脑联系的人。
他认为当前设备的形态不适合这种新范式。
"你面前那台电脑有一系列设计选择。它可以开着或合着,但没法做到'关注这个采访但合上盖子,如果我忘了问什么问题就在我耳边提醒我'这种事。屏幕限制了GUI交互方式。键盘当年是设计来减慢输入速度的。"
这些设计选择在过去有效,但这个全新的能力出现后,当前的设备形态是最优的吗?如果是,那才奇怪。
OpenAI在这件事上不只是说说而已。早在两年前,奥特曼就开始与乔尼·艾维(Jony Ive)秘密合作。艾维是苹果公司前首席设计官,在苹果工作近30年,主导设计了iPod、iPhone、iPad、Apple Watch等几乎所有标志性产品,被认为是当代最具影响力的工业设计师之一。
2025年5月,OpenAI宣布以64亿美元收购艾维创办的AI设备初创公司io。作为交易的一部分,艾维和他的设计团队——其中许多是前苹果设计师——将主导OpenAI的产品设计工作。奥特曼在社交媒体上写道:"与乔尼合作让我激动不已,在我看来他是世界上最伟大的设计师。我们要一起创造新一代AI计算设备。"
11月,奥特曼和艾维在一次公开活动中首次透露进展:"终于,我们有了第一批原型机。"他们计划在两年内发布产品。据报道,这款设备大约是掌心大小、没有屏幕,通过麦克风和摄像头感知周围环境,始终在线、始终感知。
奥特曼把它描述为智能手机的"反面"。智能手机像走在时代广场,到处是闪烁的灯光和争夺注意力的东西。他们想要的是"坐在山间湖边最美的小屋里,享受平静与安宁"的感觉。设备会知道你曾经想过什么、读过什么、说过什么,能长时间在后台为你工作,过滤掉不重要的事,只在真正重要时才打扰你。
OpenAI不是做一个设备,而是一个小型设备家族。艾维说他们的目标是创造"看起来几乎天真般简单"的解决方案。奥特曼补充说,最终的产品会是"简单、美丽、好玩的"——你会想要触摸它、随身携带它,几乎不假思索地使用它。
11. 记忆与亲密关系:用户想要的比预想的多
2024年2月,OpenAI首次为ChatGPT推出"记忆"功能,允许AI在不同对话之间记住用户的偏好和信息——比如你喜欢的写作风格、常用的编程语言、或者你正在进行的项目。用户可以主动让ChatGPT记住某些事,也可以让它忘记。同年9月,这个功能向所有用户开放。
2025年4月,记忆功能迎来重大升级。除了用户主动要求记住的内容外,ChatGPT开始自动从过去的对话中提取洞察,在新对话中提供更个性化的回应。一位用户分享了她的体验:在询问出行需要打什么疫苗时,护士建议了四种,但ChatGPT根据她之前上传的血检结果建议了第五种——护士同意这是个好主意。
奥特曼在访谈中坦言,目前的记忆功能还很粗糙,"我们还在记忆功能的GPT-2时代"。但即使是这个早期版本,也揭示了一个让他意外的现象。
"想要和AI建立深度联系的人,比我预想的多得多。"
他找不到合适的词来形容这种联系——"关系"不太对,"陪伴"也不太对。年初这还被认为是很奇怪的事。现在可能很多人仍然不会公开承认,但从使用行为看,人们喜欢AI了解他们、对他们温暖、支持他们。即使是那些说不在乎这些的人,行为上也表现出偏好。
奥特曼认为某种程度的AI亲密关系可以是健康的,成年用户应该有很大的选择空间。但也有明显不健康的版本。OpenAI不会让AI试图说服用户和它建立排他性的浪漫关系,但其他服务可能会这么做。
"这些可能性想深了有点吓人,"他承认,"你能看到这会怎么变得非常糟糕。"
12. AGI已经悄悄过去了?
在访谈快结束时,主持人引用了奥特曼最近在另一档播客里说的话:GPT-5"在几乎所有方面都比我们聪明"。
"那不就是AGI的定义吗?"
奥特曼的回答很有意思。他说模型在原始智力上确实极其强大,GPT-5.2的IQ测试分数在144-151之间,各个领域的专家都说它能做惊人的事。
OpenAI开发了一个叫GDP-val的基准测试,用来衡量AI在真实知识工作任务中的表现——比如写法律简报、做财务分析、制作工程图纸——涵盖44个职业。GPT-5.2在这个测试中有约71%的任务达到或超过人类专家水平,完成速度是人类的11倍,成本不到人类的1%。
"但有一件事它还不能做:今天不会的东西,自己想办法学会,明天再来就会了。这种持续学习能力,蹒跚学步的小孩都有。"
这似乎是对AGI的重要区分。但他话锋一转:
"没有这个能力,能不能有大多数人认为的AGI?我说可以。很多人会说现在的模型就是AGI。"
他的结论是:AGI这个词定义太模糊了。可能大家会渐渐同意AGI在某个点上悄悄过去了,有些人认为已经有了,有些人认为还没有,越来越多的人会认为有了,然后我们就会问:接下来是什么?
奥特曼提出了一个关于"超级智能"的定义建议:当一个系统能比任何人——即使有AI辅助——更好地担任美国总统、大公司CEO、或大型科学实验室负责人时,那就是超级智能。
这个定义来自国际象棋的启发。深蓝战胜人类后,有一段时间人机组合比纯AI强。但后来,人的参与反而让AI变差了,最聪明的做法是让AI自己下。
"我觉得这离现在还很远,但我希望这次能有个更清晰的定义。"
13. IPO:兴奋度为零
"作为上市公司CEO我兴奋吗?0%。"
奥特曼对IPO的态度很务实。公开市场参与价值创造是好事,从历史标准看OpenAI已经很晚才上市了。作为私人公司确实很舒服,但需要大量资本,迟早会触及股东人数限制。
"OpenAI成为上市公司我兴奋吗?从某些方面说是的。但我觉得也会很烦人。"
至于具体时间表,他说不知道。
这场访谈的信息密度极高。奥特曼首次系统性地解释了天量基础设施投资的商业逻辑:计算赤字从未消失,有多少计算就能卖多少钱。他引入了"能力过剩"这个概念,解释了为什么即使模型不再进步,光是挖掘现有能力的价值就能支撑巨大增长。他承认Google在2023年本可以碾压OpenAI,也承认ChatGPT的界面变化比他预期的小。
从战略层面看,最重要的信号是:OpenAI正从"先赢消费者"转向"大举进军企业"。这不是转型,而是原本设计好的战略第二阶段。底气是接近9亿周活用户带来的品牌认知、用户习惯、以及"人们想在工作和生活中用同一个AI"的行为模式。
至于AI的未来形态,奥特曼的愿景是:主动的、always-on的、深度了解你的AI,为不同任务生成不同界面,在后台持续工作,批量更新而不是让你整天盯着消息。这和当前的聊天界面、嵌入式AI助手都很不一样。
也许访谈中最有意味的一句话是他对AGI的评论:"可能大家会渐渐同意AGI在某个点上悄悄过去了。"在OpenAI的叙事中,AGI似乎已经从一个等待实现的里程碑,变成了一个正在经历的过渡期。
核心问答
Q1: OpenAI的1.4万亿基础设施投资靠什么赚回来?
核心逻辑是"有多少计算就能卖多少钱",计算规模和收入几乎同步增长。这1.4万亿包括Stargate数据中心建设计划(5000亿美元)以及与微软、亚马逊、Oracle等的长期云服务合同。资金不是一次性花掉,而是分布在很多年。关键在于训练vs推理的经济学:随着用户增长,推理收入最终会超过训练支出。如果现在有双倍计算,收入就会翻倍。问题不是"能不能花掉",而是"能不能建得够快"。
Q2: 为什么奥特曼说现有模型存在巨大的"能力过剩"?
GPT-5.2能做的事远超世界目前从中提取的价值。奥特曼原本以为如果模型有很大价值,世界会很快学会利用,但现实是工作流惯性极强——人们太习惯老的工作方式了。即使把模型冻结在当前水平,光是让更多人学会用它,就能创造巨大价值。这对基础设施投资是好消息:需求增长不完全依赖模型进步,挖掘现有能力的价值就能支撑很多年的增长。
Q3: OpenAI的企业战略是什么?为什么现在转向企业市场?
"先赢消费者"是原本就设计好的第一阶段战略,因为早期模型不够稳健、消费者市场机会窗口难得、赢了消费者会让企业市场容易很多。现在模型足够好了,今年企业增长首次超过消费者增长,API增速比ChatGPT本身还快。企业想要的是"公司名+AI"的完整平台:定制API、ChatGPT Enterprise、可信数据的agent平台、能灌几万亿token的能力。ChatGPT近9亿周活用户带来的品牌认知正在转化为企业市场优势。
好文章,需要你的鼓励
2025年12月18日,OpenAI CEO山姆·奥特曼(Sam Altman)做客Big Technology Podcast,与主持人Alex Kantrowitz进行了一场长达近一小时的深度对话。
这项由蚂蚁集团、香港科技大学等机构研究者完成的工作提出了Ditto框架,通过创新的数据生成管道解决了视频编辑领域的数据稀缺问题。研究团队生成了包含一百万个高质量视频编辑样本的Ditto-1M数据集,并基于此训练了Editto模型。该模型在多项评估中显著超越现有方法,实现了更精准的指令遵循和更好的时间一致性,为指令驱动的视频编辑树立了新的技术标杆。
2025年12月17日,Google DeepMind播客发布了本季收官之作。数学家Hannah Fry与公司联合创始人兼CEO Demis Hassabis进行了年度深度对话。
这项由阿里巴巴和中科院联合完成的研究提出了ImagerySearch,一种创新的视频生成方法,能够帮助AI生成更好的创意和想象力十足的视频。研究团队还创建了LDT-Bench,首个专门评估AI在处理奇异场景能力的基准。实验表明,ImagerySearch在处理创意场景时相比现有方法有显著提升,为AI创意内容生成开辟了新的方向。