Google DeepMind造出"全能游戏玩家":SIMA 2在虚拟世界里自由行动,还会自己学新技能 原创

Google DeepMind造出"全能游戏玩家":SIMA 2在虚拟世界里自由行动,还会自己学新技能

你有没有想过,如果把一个人突然扔进一个从未见过的电子游戏里,他能不能很快上手?一个熟练的《我的世界》玩家,第一次玩《塞尔达传说》会是什么表现?人类之所以能做到这一点,是因为我们从一个游戏学到的移动、和物体互动、看懂菜单等技能,可以迁移到另一个游戏中。那么问题来了:人工智能能不能也拥有这种"举一反三"的能力,在各种各样的虚拟世界里自由穿行?

Google DeepMind造出

2025年12月,DeepMind的SIMA 2团队推出了一个基于Gemini模型打造的"全能型选手",SIMA 2智能体。SIMA 2能够在各种各样的3D虚拟世界中理解环境、执行任务、甚至与人类对话。更令人惊叹的是,SIMA 2还展现出了一种珍贵的能力:它能在从未见过的新环境中自主学习新技能,不需要人类手把手教导。这项研究代表了通用人工智能发展道路上的重要一步,为我们展现了未来AI助手可能具备的潜力。

从"听话的工具人"到"有想法的伙伴"

假如你雇了一个玩家来帮你玩游戏。这个帮手只能听懂最简单的指令,比如"走到那棵树旁边"或者"捡起地上的石头",那他充其量就是个执行命令的工具。但如果这个帮手不仅能理解复杂的指示,还能主动思考、规划路线、遇到困难时和你商量对策,那他就更像是一个真正的队友了。

这正是SIMA 2相比它的前身SIMA 1最大的进化。SIMA 1就像一个只会执行简单命令的工具人,你告诉它"去篝火那里",它就去篝火那里,仅此而已。它不会主动解释自己在做什么,也不会在遇到问题时征求你的意见。而SIMA 2则完全不同,它更像是一个有想法、会交流的游戏伙伴。

这种进化是如何实现的呢?关键在于SIMA 2的"大脑",它是基于Google的Gemini模型构建的。你可以把Gemini想象成一个博学多才的学者,它阅读过互联网上海量的文字和图片,因此对世界有着广泛的了解。当这位学者被训练成一个游戏玩家时,他不仅带来了原本的知识储备,还能用这些知识来理解游戏中的情境。比如,当SIMA 2看到游戏画面中出现一个红色的小屋时,它能够调用脑海中关于"红色"和"房子"的概念来理解这个场景,而不是像之前的AI那样需要从头学习。

Google DeepMind造出

举个具体的例子:如果你对SIMA 2说"去那栋颜色像熟番茄一样的房子",它会在心里思考,"成熟的番茄是红色的,所以我要找的是红色的房子",然后准确地走向那栋红房子。这种在脑海中进行推理的能力是SIMA 1完全不具备的。

一个通才学徒的成长之路

要理解SIMA 2是如何诞生的,我们可以把它想象成一个正在学习多种手艺的学徒。这个学徒的目标是成为一个"全能工匠",无论是木工、铁匠还是裁缝的活儿,他都能上手。

Google DeepMind造出

这个学徒的训练分为几个阶段。首先是"观摩学习"阶段,他观看了大量人类师傅是如何玩各种游戏的。这些游戏涵盖了丰富多样的类型:有维京生存游戏《英灵神殿》,玩家要在野外收集资源、建造房屋、对抗怪物;有太空沙盒游戏《太空工程师》,玩家扮演宇航员在小行星和行星上开采资源、建造飞船;还有《无人深空》这样的宇宙探索游戏,以及《Satisfactory》这种工厂建设模拟器。通过观察人类如何在这些截然不同的世界中操作,学徒学会了最基础的"手艺":怎么移动鼠标、怎么按键盘、怎么看懂屏幕上的信息。

Google DeepMind造出

但光看师傅干活还不够。一个优秀的学徒还需要理解自己为什么要这样做,以及如何向客户解释自己的工作。于是研究团队又准备了一种特殊的"进阶教材",他们称之为"桥接数据"。这些数据不仅包含了游戏操作,还包含了对这些操作的解释和推理。就好像师傅一边干活一边解释:"你看,我现在要去砍那棵树,因为我们需要木材来建房子。我选择这棵树是因为它离我们最近。"通过学习这些带解释的示范,学徒不仅学会了怎么做,还学会了怎么思考和怎么表达。

最后是"实战演练"阶段。学徒被放到真实的游戏环境中,给他布置各种任务,然后根据完成情况给予奖励或惩罚。如果他成功完成了任务,比如"收集10块石头",他就会得到"做得好"的正面反馈;如果他失败了或者做了很多无用功,他就会得到提醒需要改进。通过这种强化学习的方式,学徒逐渐从一个笨手笨脚的新手成长为一个技艺娴熟的工匠。

令人惊讶的成绩单

那么,经过这番训练,SIMA 2的表现究竟如何呢?研究团队设计了一系列测试来评估它的能力,结果相当亮眼。

Google DeepMind造出

在它训练过的那些游戏环境中,SIMA 2的成功率几乎是SIMA 1的两倍。更具体地说,在需要人类评判员打分的任务中,SIMA 1只能完成大约33%的任务,而SIMA 2则达到了65%,非常接近人类玩家在相同条件下76%的成功率。在自动评估的任务中,这种进步同样显著:SIMA 1的成功率是30%,而SIMA 2达到了66%,同样逼近人类的78%水平。

研究团队还按照不同的技能类别分析了表现。这些技能包括:与环境中的物体互动、在地图上导航移动、使用游戏菜单、装备和使用工具、建造和制作物品、管理物品栏、收集资源,以及战斗。SIMA 2在大多数类别中都取得了显著进步,在"互动"和"物品管理"等类别中几乎追平了人类水平。不过,它在"战斗"类任务中表现相对较弱,这主要是因为战斗往往需要极快的反应速度和精准的操作,比如在《英灵神殿》中猎鹿,需要从下风处悄悄接近,然后快速出击,一旦鹿逃跑就要展开艰难的追逐。这种需要"运动神经"的任务对AI来说仍然是个挑战。

真正的考验:面对完全陌生的世界

如果一个学徒只会在自己学过的作坊里干活,那他充其量是个熟练工;但如果他能去到从未见过的新作坊,依然能应对自如,那他才称得上是真正的高手。研究团队正是用这种方式来检验SIMA 2的"通用能力"。

他们选了两个SIMA 2在训练中从未接触过的游戏来测试。第一个是《ASKA》,一款2024年才推出的维京生存游戏,玩家需要建设村庄、招募村民、分配任务。第二个是《我的世界》的MineDojo测试套件,包含50种不同的采矿、战斗和制作任务。

Google DeepMind造出

测试结果非常有趣。在这两个全新环境中,SIMA 2的表现大大超过了SIMA 1。以《ASKA》为例,SIMA 1基本只能完成最简单的任务,比如打开地图或捡起脚边的物品。而SIMA 2则能完成更复杂的任务,比如找到篝火并走过去。更有意思的是,我们可以从SIMA 2的"自言自语"中看出它是如何思考的。当被要求找篝火时,它会先说"我先看看周围的环境",然后当远处出现一个火光时,它会说"那个可能是篝火,我去看看",最后走到目的地时,它会确认"我找到篝火了"。这种边做边想、边想边说的能力正是SIMA 2区别于前代产品的关键特征。

Google DeepMind造出

研究团队还做了一个更激进的测试:让SIMA 2在《The Gunk》这款完全不同风格的游戏中行动。《The Gunk》是一款动作冒险游戏,玩家要用一个手持吸尘设备清理星球上的黑色污染物。这款游戏的画面风格、操作方式和游戏机制都与SIMA 2训练时接触的游戏大相径庭。然而,在人类的指导下,SIMA 2成功通过了游戏的前15到20分钟,完成了扫描物体、攀爬台阶、跳过沟壑、清理污染区域等全新任务。它甚至学会了通过屏幕上显示的"吸收"和"按住"提示来理解应该如何操作新工具。

Google DeepMind造出

最令人震撼的测试来自于与Genie 3的结合。Genie 3是DeepMind开发的一个生成式世界模型,可以根据文字描述或初始图像实时生成无限多样的虚拟环境。研究团队用它生成了各种逼真的自然场景和城市环境,这些场景完全不是电子游戏的风格,而更像是真实世界的照片。令人惊讶的是,尽管SIMA 2从未在这种逼真环境中训练过,它依然能够导航到指定的目标位置。这暗示了一种令人兴奋的可能性:在虚拟游戏中学到的技能,或许真的可以迁移到更接近真实世界的场景中。

保住"聪明脑袋":一个微妙的平衡

当你专心学习一门新技能时,有时候会发现自己以前会的东西变得生疏了。钢琴家转学吉他,可能会发现自己的钢琴技巧退步了。对于AI来说,这种现象叫做"灾难性遗忘",当模型被训练去做新任务时,它在原来任务上的能力可能会严重下降。

这对SIMA 2来说是一个特别棘手的问题。它的"大脑"Gemini原本是一个博学多才的通用模型,擅长回答问题、写代码、做数学题。但为了让它学会在游戏里操控角色,研究团队需要给它"喂"大量的游戏操作数据。这些鼠标移动、键盘按键的数据,与Gemini原本学习的文章、图片截然不同。过去的研究发现,这种专门化训练往往会"摧毁"模型原有的对话和推理能力。

Google DeepMind造出

那么SIMA 2会不会变成一个"只会玩游戏的傻瓜"呢?研究团队做了测试。他们用三套标准测试来评估SIMA 2的"通用智力":LiveCodeBench测试编程能力,AIME测试高级数学推理,GPQA Diamond测试科学知识问答。结果让人松了一口气:SIMA 2在编程测试上只比原始Gemini模型下降了不到10%,在数学和科学测试上下降了15%到25%。考虑到SIMA 2获得了在3D世界中行动的全新能力,这种程度的"代价"是相当值得的。

研究团队是如何做到这一点的呢?秘诀在于训练数据的"混合搭配"。他们没有只给SIMA 2喂游戏数据,而是在训练过程中继续混入Gemini原本的预训练数据。这就好像让一个正在学习新手艺的学徒,每天也抽时间复习以前学过的知识,防止旧技能生锈。

当学徒变成自学成才的大师

到目前为止,我们讨论的都是SIMA 2如何在人类的指导下学习和成长。但研究团队实现了一个更加困难的目标:让SIMA 2能够自己教自己。

要理解这件事的难度,我们需要先想想人类是怎么学习新游戏的。当你第一次玩一款新游戏时,通常会有教程告诉你该做什么,或者你有一个明确的目标可以追求。但如果把你扔进一个完全陌生的开放世界,没有任何指引,你怎么知道该做什么?更重要的是,你怎么知道自己做得好不好?

Google DeepMind造出

研究团队用Gemini模型解决了这两个问题。首先,他们让一个Gemini模型充当"任务设定者",观察当前的游戏画面,然后想出一些SIMA 2可能完成的任务。比如,看到地上有浆果,它可能会提议"去收集那些浆果";看到附近有建筑物,它可能会说"去探索那栋房子"。其次,他们让另一个Gemini模型充当"评判员",观看SIMA 2执行任务的录像,给出0到100的评分。评分标准不仅包括任务是否完成,还包括完成得是否高效,有没有做很多无用功。

通过这套系统,SIMA 2可以在一个全新的环境中自我进化。研究团队选择了《ASKA》作为试验场,因为这款游戏在SIMA 2的训练中从未出现过。一开始,SIMA 2在这个环境中表现平平,很多任务都完不成。但随着一轮又一轮的自我训练,它的表现稳步提升。到最后,SIMA 2在所有测试任务上的平均得分都超过了50分的"成功线",在某些任务上甚至超过了经验丰富的人类玩家。

更令人印象深刻的是,SIMA 2在这个过程中学会了原本不会的全新技能。比如,它学会了《ASKA》的一个特有游戏机制,熄灭篝火,在SIMA 2训练过的其他游戏里根本不存在。它还学会了识别并导航到"雨水收集器"这种新物体,以及使用《ASKA》独特的制作菜单。通过持续的自我训练,研究团队甚至让SIMA 2在《ASKA》的科技树上取得了显著进展,完成了从零开始建造一个庇护所所需的所有步骤。

这种"自我进化"的能力为什么重要?因为它指向了人工智能研究的一个终极目标:创造能够永不停歇地学习和成长的系统。想象一下,如果AI能够在没有人类监督的情况下,自己给自己出题、自己评判、自己进步,那它的学习速度和广度将远远超过任何需要人类参与的系统。研究团队认为,SIMA 2展示的这种自我改进能力是朝向这个宏大目标迈出的重要一步。

至顶AI实验室洞见

DeepMind为什么要花这么大力气让AI学会玩电子游戏呢?其实,他们的最终目标不是游戏,而是现实世界。

电子游戏提供了一个得天独厚的训练场地。它们足够复杂,能够考验AI的视觉理解、空间导航、物体操作、计划推理等各种能力;但又足够安全,AI在游戏里犯错不会造成任何真实损失。最重要的是,游戏世界可以无限量地生成训练数据,不像真实世界那样数据收集困难且昂贵。

SIMA 2的成功表明,在游戏中学到的"具身智能"是可以迁移的,包括如何感知环境、做出行动、从结果中学习。一个在各种游戏中训练过的AI,面对它从未见过的新游戏时,不是从零开始,而是可以调用以前学到的通用技能。这种泛化能力是通往真正通用人工智能的关键。

研究团队在文章中谨慎地提出了这样一种可能性:如果SIMA 2能够在Genie 3生成的逼真环境中成功导航,那么从理论上讲,它在虚拟游戏中学到的技能也许有一天能够迁移到控制真实世界的机器人。当然,这还是一个相当遥远的愿景,但SIMA 2至少证明了:在虚拟世界中培养出来的具身能力,并不会被局限在虚拟世界中。

归根结底,SIMA 2代表的是人工智能从"被动的知识库"向"主动的行动者"转变的重要一步。以前包括ChatGPT这样的聊天机器人,主要是一动不动地回答问题、生成内容。它们对世界的"理解"是静态的、书本式的。而SIMA 2开始展示一种不同的智能:通过主动与环境互动来理解世界,通过行动的结果来学习因果关系,通过解决新问题来拓展自己的能力边界。这种"具身化"的智能,或许才是通向真正理解世界的AI的必经之路。

当然SIMA 2远非完美,在需要精细运动技能的任务中仍然吃力,它的推理能力在最困难的情况下仍会出错,自我改进速度也远不及人类学习新技能的速度。但作为一个概念验证,它已经足够强大了。

 

END
本文来自至顶AI实验室,一个专注于探索生成式AI前沿技术及其应用的实验室。致力于推动生成式AI在各个领域的创新与突破,挖掘其潜在的应用场景,为企业和个人提供切实可行的解决方案。

 

Q&A

Q1:SIMA 2和普通的游戏AI有什么区别?

A:普通游戏AI通常是针对单一游戏专门设计的,只能在那个特定游戏中运行。而SIMA 2是一个"通才型"选手,它在多种不同的游戏中训练,能够把学到的技能迁移到全新的、从未见过的游戏环境中,甚至能在逼真的模拟世界里导航。

Q2:SIMA 2真的能像人类一样聪明吗?

A:SIMA 2在完成游戏任务方面接近人类水平,在某些简单任务上甚至能超过人类新手。但它在需要快速反应的战斗类任务中表现较弱,面对全新环境时的学习速度也远不及人类。它更像是一个在特定领域非常能干的专家,而不是全方位的人类级智能。

Q3:这项研究跟我们普通人有什么关系?

A:虽然SIMA 2目前只是在游戏中展示能力,但它验证了AI能够学会"具身化"技能并迁移到新环境的可能性。未来,类似技术可能被用于训练能够帮助人们完成家务、进行远程操作或在复杂环境中工作的机器人助手。

来源:至顶AI实验室

0赞

好文章,需要你的鼓励

2025

12/08

14:57

分享

点赞

邮件订阅