教会机器人在手机上“思考”的神奇方法:浙江大学团队如何让AI学会多步骤操作 原创

这项由浙江大学与阿里巴巴通义实验室联合开展的研究,通过创新的半在线强化学习方法,显著提升了AI界面助手在多步骤任务中的表现。UI-S1-7B模型在多个基准测试中创造了7B参数规模的新纪录,为GUI自动化代理的发展开辟了新的技术路径。

这是一个关于人工智能如何学会像人类一样操作手机和电脑界面的故事。

浙江大学与阿里巴巴通义实验室的研究团队刚刚发表了一项突破性研究,他们开发的UI-S1模型能够像真正的数字助手一样,理解复杂的任务指令,并在手机应用之间自如地跳转完成多步骤操作。

回到现实生活中,当你想让AI助手帮你用图片编辑软件修改一张照片,然后把修改后的图片发送给朋友时,这需要AI能够记住刚才做了什么,理解下一步该做什么,就像人类在操作手机时那样自然流畅。然而,传统的AI训练方法在这方面存在一个根本性的困境。

传统方法的困境:就像只会背书却不会实际操作

在深入了解这项创新之前,我们先来理解研究团队面临的核心挑战。想象你正在学习做菜,有两种截然不同的学习方式。第一种方式是"离线学习",就像反复研读菜谱和观看烹饪视频。在这种方式下,你能够记住每个步骤的细节,知道先放什么调料,后放什么配菜。但问题是,当你真正站在厨房里时,情况可能完全不同——锅的温度可能比视频中的更高,食材的新鲜程度可能不同,而你之前学到的固定步骤可能无法应对这些变化。

第二种方式是"在线学习",就像直接在真实厨房里学习做菜。你能够实时感受锅的温度,调整火候,根据食材的实际状态做出调整。这种学习方式能让你掌握真正的烹饪技能,但代价是巨大的——你可能会烧坏很多锅具,浪费大量食材,而且学习过程既缓慢又昂贵。

研究团队发现,现有的AI训练方法正面临着同样的两难困境。传统的离线强化学习就像第一种学习做菜的方式,AI系统在大量预先收集的数据上训练,能够学会单个步骤的准确操作,但当面临需要多个连续步骤的复杂任务时,往往会在中途"迷失方向"。比如,AI可能学会了如何点击"设置闹钟"按钮,也学会了如何输入时间,但它无法将这些独立的技能串联起来完成完整的闹钟设置任务。

另一方面,在线强化学习虽然能让AI在真实环境中学习连续操作,但这种方法的成本让人望而却步。就像让AI在真实的手机上反复尝试各种操作,它可能需要尝试成千上万次才能学会一个简单的任务,而且每次错误操作都可能带来不可预测的后果。更重要的是,在真实环境中,任务完成的奖励信号往往非常稀少——只有在整个任务完全完成时,AI才能知道自己是否做对了,这就像一个学生只有在期末考试时才能知道自己一整个学期的学习效果。

突破性创新:半在线学习的巧妙平衡

面对这个看似无解的困境,浙江大学的研究团队提出了一个巧妙的解决方案——半在线强化学习。这就像是在模拟厨房中学习做菜,既能体验到真实的烹饪流程,又不会承担真实厨房中的风险和成本。

具体来说,研究团队的方法就像是创建了一个"时间机器"训练系统。在这个系统中,AI首先尝试按照自己的理解执行一个操作步骤,比如尝试在手机上设置闹钟。如果AI的操作与专家示例一致,系统就让它继续下一步。但如果AI的操作出现偏差——比如它点击了错误的按钮——系统不会简单地终止训练或让错误继续扩散。

教会机器人在手机上“思考”的神奇方法:浙江大学团队如何让AI学会多步骤操作

相反,系统会启动一个叫作"修补模块"(Patch Module)的神奇机制。想象这就像是一个贴心的导师,当你在学习过程中犯错时,导师会及时纠正你的错误,然后让你继续学习后续步骤,而不是让你从头开始。这个修补模块会巧妙地用正确的操作替换错误的操作,让AI能够继续学习任务的后续部分。

这种方法的天才之处在于,AI不仅能学会单个操作的准确性,更重要的是,它能够学会如何处理多步骤任务中的上下文连续性。就像学习做一道复杂菜品时,你不仅要知道每个步骤怎么做,还要理解前一个步骤的结果如何影响下一个步骤的执行。

修补模块:AI的贴心导师

修补模块可以说是这项研究的核心创新之一,它就像是一个极其智能的错误纠正系统。想象你正在学习拼装一个复杂的家具,每当你拼错一个部件时,都有一位经验丰富的师傅在旁边及时指出错误,帮你纠正,然后让你继续拼装下去,而不是让你完全重新开始。

研究团队为修补模块设计了三种不同的"纠错策略"。第一种叫作"无思考修补",就像师傅只是简单地替你纠正错误操作,但不解释为什么这样做。这种方法简单直接,计算成本最低。第二种叫作"离线思考修补",就像师傅不仅纠正你的错误,还会用一套标准化的解释告诉你为什么要这样做。第三种叫作"在线思考修补",这是最高级的方式,师傅会根据你当前的学习状态和思维模式,用你最容易理解的方式解释正确的操作逻辑。

通过大量实验,研究团队发现第一种简单的"无思考修补"策略效果最佳。这个发现颇有意思——有时候简单的方法反而最有效,就像有些学习场景中,过多的解释反而会让学习者感到困惑。

更重要的是,修补模块有一个智能的"容忍度"设置。系统不会无限制地纠错,而是设定了一个合理的纠错次数上限。这就像一位好老师知道,如果学生在一个任务上犯了太多错误,继续纠错可能不如让学生重新开始学习。通过实验,研究团队发现将容忍度设置为1(即允许一次纠错)时效果最好,既保证了学习的连续性,又避免了过度依赖纠错机制。

双层优势系统:既见树木又见森林

传统的AI训练方法往往只关注单个步骤的准确性,就像只看到树木而忽略了整片森林。研究团队创新性地设计了一个"双层优势系统",让AI既能关注每个步骤的局部准确性,又能理解整个任务的全局目标。

想象你正在学习下国际象棋。传统的学习方法可能只教你每个棋子怎么走,哪步棋在技术上是正确的。但真正的象棋高手不仅要知道单步棋的好坏,更要理解这步棋在整个棋局中的战略意义。研究团队的双层优势系统就是要让AI学会这种"既见树木又见森林"的思维方式。

具体来说,系统的第一层关注"步骤级优势",就像评估每个具体操作的即时效果——这个点击是否准确,这个滑动是否到位。第二层关注"任务级优势",评估整个操作序列是否朝着最终目标前进。这两层优势信息会被巧妙地结合起来,让AI在学习过程中既不会忽视细节,也不会迷失在无关紧要的局部优化中。

更进一步,研究团队还引入了"未来奖励折扣"机制。这就像教AI学会延迟满足——当前的操作可能看起来不够完美,但如果它能为后续步骤创造更好的条件,那么这个操作就是有价值的。这种机制让AI能够做出更具前瞻性的决策,而不是仅仅追求眼前的局部最优。

SOP评估标准:更接近真实世界的考试

为了验证他们的方法是否真正有效,研究团队面临着一个新的挑战:如何评估AI的多步骤操作能力?传统的评估方法就像在考试中给学生提供标准答案,然后检查每个步骤是否与答案完全一致。但在真实世界中,AI必须基于自己前面步骤的结果来执行后续操作,就像真正的考试不会给你标准答案作为参考。

研究团队创新性地提出了"半在线性能"(Semi-Online Performance,SOP)评估标准。这个标准就像设计了一种更接近真实情况的考试方式——AI必须完全依靠自己之前步骤的输出来继续操作,一旦出现错误就必须面对后果,而不能"作弊"地使用标准答案。

教会机器人在手机上“思考”的神奇方法:浙江大学团队如何让AI学会多步骤操作

这种评估方式的重要性不言而喻。研究团队通过统计分析发现,传统的离线评估标准与真实在线性能的相关性很弱(相关系数只有0.470),就像学校考试成绩与实际工作能力的关系并不紧密。而他们提出的SOP标准与真实在线性能的相关性高达0.934,几乎完全一致。这意味着通过SOP评估,我们几乎可以准确预测AI在真实环境中的表现。

实验验证:显著的性能提升

理论再完美,也需要实际验证。研究团队在多个标准测试平台上对他们的UI-S1-7B模型进行了全面测试,结果令人印象深刻。

教会机器人在手机上“思考”的神奇方法:浙江大学团队如何让AI学会多步骤操作

在AndroidWorld测试平台上,这个模拟真实安卓手机操作环境的测试中,UI-S1-7B相比基础模型实现了12.0%的性能提升。更令人惊叹的是,在AITW-Gen测试中,性能提升幅度达到了23.8%。这种提升程度就像是一个学生从及格线提升到了优秀水平。

更有意思的是,研究团队发现他们的方法不仅在多步骤任务上表现优异,在单步骤任务上也保持了竞争力。在ScreenSpot-Pro测试中提升了1.9%,在GUI Odyssey测试中提升了7.1%。这说明半在线学习方法并不是以牺牲基础能力为代价来换取复杂任务的性能,而是实现了全面的能力提升。

研究团队还进行了细致的对比实验,比较了不同训练策略的效果。结果显示,仅使用监督学习的模型在动态环境测试中只能达到21.7%的成功率,传统的离线强化学习甚至出现了性能下降,只有15.7%的成功率。而他们的半在线强化学习方法达到了30.4%的成功率,结合监督学习预训练后更是达到了34.0%的优异表现。

真实案例:从理论到实践的生动展示

为了更直观地展示他们方法的效果,研究团队分享了一个特别有趣的真实案例。这是一个跨应用的复杂任务:需要AI创建一个名为"receipt.md"的文件,并将从图片中获取的交易信息以CSV格式写入文件。这个任务需要AI打开文件管理应用,使用图片查看器查看收据图片,记住其中的交易信息,然后创建文件并正确格式化数据。

教会机器人在手机上“思考”的神奇方法:浙江大学团队如何让AI学会多步骤操作

在这个12步的复杂任务中,基础模型和传统的离线强化学习模型都表现出了明显的问题。基础模型会丢失关键信息,执行冗余操作,比如试图创建一个已经存在的文件。离线强化学习模型虽然能制定正确的计划,但经常在执行过程中提前终止,可能是因为过度关注局部奖励而忽视了长期目标。

相比之下,使用半在线强化学习训练的UI-S1-7B成功地完成了整个任务序列。它准确记录了关键信息"2023-03-23, Monitor Stand, .22"并以正确的CSV格式保存。这个案例生动地展示了半在线学习方法在处理需要信息记忆和多步骤推理任务中的显著优势。

技术细节:训练过程的精妙设计

虽然前面我们用通俗的比喻解释了方法的核心思想,但这项研究的技术实现也同样精妙。研究团队设计了一个复杂的奖励结构,就像为AI设计了一个精细的评分系统。

这个评分系统包含三个层次的评估。首先是格式正确性(占总分的10%),检查AI的输出是否符合基本格式要求,就像检查作业是否按照要求的格式书写。其次是操作类型正确性(占40%),评估AI选择的操作类型是否合适,比如该点击的时候是否真的选择了点击。最后是精确匹配准确性(占50%),检查具体操作是否完全正确,比如是否点击了正确的位置。

更重要的是,系统还引入了"未来奖励折扣"机制,使用0.5的折扣因子。这意味着AI不仅要考虑当前操作的immediate effect,还要考虑这个操作对未来步骤的影响。这种设计让AI学会了"深谋远虑",而不是只顾眼前利益。

训练过程中,研究团队还设置了一个巧妙的"多样性阈值"机制。如果在一批训练样本中,所有AI生成的操作都过于相似(方差小于0.3),系统会继续采样更多样本直到达到足够的多样性。这确保了AI在训练过程中能接触到足够丰富的情况,避免过度拟合到特定的操作模式。

深入分析:为什么这种方法如此有效

通过详细的消融实验和分析,研究团队揭示了半在线学习方法成功的关键因素。最重要的发现是,这种方法能够有效提高训练过程中的"策略熵",也就是AI行为的多样性。传统方法训练出的AI往往行为模式单一,就像一个只会按固定套路做事的人。而半在线学习让AI在训练过程中保持更高的探索性和适应性。

教会机器人在手机上“思考”的神奇方法:浙江大学团队如何让AI学会多步骤操作

修补模块的阈值设置也显示出有趣的规律。随着允许纠错次数的增加,AI的性能确实提升,但这种提升遵循指数衰减规律。这说明大多数学习收益来自于最初的几次纠错机会,过多的纠错反而可能让AI产生依赖性。

数据规模的影响同样令人印象深刻。研究团队发现,在不同的修补阈值设置下,性能提升都遵循类似的幂律缩放规律,但更宽松的修补阈值(允许更多纠错)不仅提高了绝对性能,还改善了数据效率。这意味着在相同的数据量下,更智能的纠错策略能带来更大的学习效果。

局限性与未来展望

尽管取得了显著成果,研究团队也坦诚地讨论了当前方法的局限性。首先,虽然半在线学习大大降低了训练成本,但相比纯离线学习仍然需要更多计算资源。具体来说,使用修补机制的训练时间约为传统离线学习的2.3倍,这就像烹饪时多花一些时间精心调味,最终能得到更好的菜品,但确实需要更多耐心。

其次,当前的方法主要在移动设备GUI上进行了验证,在其他类型的用户界面(如桌面应用程序或网页界面)上的表现还需要进一步验证。不过,考虑到方法本身的通用性,扩展到其他平台应该是可行的。

最有趣的是,研究团队发现了一个意外的现象:最简单的"无思考修补"策略往往效果最好。这个发现挑战了"越复杂越好"的传统观念,提示我们在AI训练中,有时候简单直接的方法可能比复杂精巧的方法更有效。这为未来的研究提供了重要启示——或许我们应该更多地关注方法的本质效果,而不是追求表面的复杂性。

更广泛的影响:从GUI自动化到人机交互的未来

这项研究的意义远远超越了GUI自动化本身。它代表了人工智能从"单步骤专家"向"多步骤思考者"的重要转变。想象一下,如果AI能够学会处理需要多个连续步骤的复杂任务,那么它在许多实际应用场景中的价值将大大提升。

在辅助技术领域,这种能力可能为视障人士或行动不便的用户带来革命性的帮助。AI助手不再只能执行简单的单一指令,而是能够理解复杂的意图并自主完成多步骤的操作流程。在软件测试领域,这种技术可能大大降低手动测试的成本,让AI自动执行复杂的用户操作序列来检测软件bug。

更进一步,这种半在线学习的思想可能启发其他领域的AI训练方法。比如在机器人学习中,我们同样面临着模拟训练与真实部署之间的gap。在自然语言处理中,我们也需要让AI学会在多轮对话中保持上下文连贯性。这项研究提出的修补机制和双层优势系统可能为这些领域提供新的解决思路。

从更宏观的角度来看,这项研究体现了当前AI发展的一个重要趋势:从追求单点突破转向追求综合能力。过去的AI系统往往在特定任务上表现卓越,但缺乏灵活性和适应性。而这种半在线学习方法代表了一种新的训练范式,既保持了训练的效率,又培养了AI处理复杂、多步骤任务的能力。

至顶AI实验室洞见

浙江大学团队的这项研究为我们展示了一种全新的AI训练思路。他们没有简单地在现有方法中选择一个,而是巧妙地结合了离线学习的效率和在线学习的灵活性,创造出了一种更加实用的训练方法。

这项工作最让人印象深刻的地方在于,它不仅在技术上实现了突破,更在思维方式上提供了启发。研究团队通过"修补模块"这个看似简单的创新,解决了一个长期困扰AI研究者的根本性问题:如何让AI既能从过去的经验中高效学习,又能适应真实世界的复杂变化。

对于普通用户来说,这项研究预示着未来我们可能会看到更加智能、更加实用的AI助手。这些助手不再是只会执行简单指令的"工具",而是能够理解复杂意图、执行多步骤任务的"助手"。想象一下,你只需要说"帮我整理一下这个月的财务状况",AI就能自动打开相关应用,收集数据,生成报告,这种体验将是革命性的。

论文地址:

https://arxiv.org/pdf/2509.11543

END
本文来自至顶AI实验室,一个专注于探索生成式AI前沿技术及其应用的实验室。致力于推动生成式AI在各个领域的创新与突破,挖掘其潜在的应用场景,为企业和个人提供切实可行的解决方案。
 
Q&A

Q1:什么是半在线强化学习?它与传统的离线和在线强化学习有什么区别?

A:半在线强化学习是一种创新的训练方法,它结合了离线强化学习的训练效率和在线强化学习的长期优化能力。与离线强化学习只能在静态数据上训练不同,半在线方法能模拟真实的交互过程;与在线强化学习需要昂贵的真实环境交互不同,半在线方法在离线数据上就能实现这种模拟,大大降低了成本。

Q2:UI-S1在实际应用中的性能表现如何?

A:UI-S1-7B在多个权威测试中取得了7B参数模型的最佳成绩。在AndroidWorld上达到34.0%成功率,在AITW-Gen上达到74.3%成功率,相比基础模型分别提升了19.1%和23.8%。更重要的是,它能够成功完成跨应用的复杂任务,如在不同应用间记住和传递信息。

Q3:普通开发者可以使用UI-S1技术吗?有什么使用要求?

A:研究团队已经在GitHub上开源了UI-S1的完整代码(https://github.com/X-PLUG/MobileAgent/tree/main/UI-S1),普通开发者可以访问和使用。不过,训练这样的模型需要相当的计算资源,论文显示他们使用了32张GPU进行训练。对于资源有限的开发者,可以考虑使用预训练模型进行微调或者在云平台上进行训练。

来源:至顶AI实验室

0赞

好文章,需要你的鼓励

2025

09/16

17:27

分享

点赞

邮件订阅